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译 版 一 些 说 明 


e 本 分 支 是 基于 乌云 所 翻译 的 《RE4B》 所 衍生 的 翻译 版 本 。 经 过 乌云 允许 后 ， 
我 们 fork 了 它 并 进行 一 些 错误 的 修复 和 更 新 。 

e 人 邮 社 出 版 的 《RE4B》 翻 译 版 与 本 分 支 无 任何 关系 ， 是 由 Archer 和 Anti 团 队 一 
起 翻译 而 成 。 

e 和 人 邮 社 沟通 后 ， 因 翻译 版 权 问 题 ， 本 分 支 只 会 对 已 翻译 的 内 容 进行 错误 修 
复 。 不 会 再 对 作者 的 主干 分 支 进行 同步 更 新 。 

e. 有 兴趣 的 可 以 加 QQ 群 一 起 交流 逆向 工程 : 565270515 

e. 请 勿 再 fork 本 分 支 进 行 传播 


参与 过 的 翻译 人 员 (如 有 遗漏 烦请 提醒 一 声 ) 


e IEZ ` HER ^ blast^ magix526 ` Larryxi ^ Zi ^ DM ` Zing ` inkydragon ` 
xqin 


Part | 代码 模式 


Part | 代码 片段 


Everything is comprehended in comparison - Author unknown 


我 在 开始 学 C/C++ 的 时 候 ， 经 常 写 一 些小 段 的 代码 编译 一 下 ， 然 后 观察 输出 的 汇编 
代码 。 这 种 习惯 让 我 很 容易 理解 代码 背后 到 底 发 生 了 什么 。 这 种 习惯 让 C/C++ 代码 
和 编译 器 产生 的 汇编 语言 的 关系 深 深 地 印 在 我 的 脑海 里 ， 对 我 来 说 很 容易 就 能 通过 
汇编 代码 想 出 C 代 码 和 函数 粗略 的 样子 。 或 许 这 个 技巧 对 其 他 初学 者 能 有 所 帮助 。 


本 书 有 时 候 会 用 到 一 些 旧 的 编译 器 ， 这 是 为 了 尽 可 能 得 到 最 短 的 (最 简单 ) 代 码 片 
段 。 


RTA 


作者 在 学 习 C 语 言 的 时 候 ， 经 常 些 写 一 些 C 语 言 的 小 函数 ， 然 后 逐渐 的 将 他 们 重 写 
成 汇编 语言 ， 并 尝试 让 代码 尽 可 能 的 短 。 现 在 这 种 做 法 不 是 很 值得 提倡 ， 因 为 很 难 
在 效率 上 和 现代 编译 器 相 竞争 。 不 过 这 是 一 种 深入 理解 汇编 语言 言 的 好 方法 。 因 此 ， 
你 可 以 放 轻 松 一 些 ， 随 便 在 这 本 书 里 找 一 段 汇编 代码 ， 然 后 尝试 者 让 它 更 短 一 些 。 
当然 不 要 忘记 测试 你 所 写 的 汇编 代码 。 


优化 等 级 和 调试 信息 


源 代 码 可 以 用 不 同 的 编译 器 ,以 不 同 的 优化 等 级 来 编译 。 典型 的 编译 器 有 三 种 优化 

等 级 ， 其 中 0 级 代表 不 优化 。 优 化 既 可 以 针对 代码 的 体积 ， 也 可 以 针对 代码 的 运行 

。 一 个 无 优化 的 编译 器 编译 会 更 快 一 点 ， 生成 的 代码 也 更 容易 理解 一 些 ( 吕 然 很 
长 )。 反 之 一 个 带 优化 的 编译 器 会 运行 的 更 慢 ， 并 编译 出 运行 的 更 快 的 代码 (但 代 

码 并 不 会 更 杂凑 ) 。 


除了 优化 的 级 别 和 方向 外 ， 一 个 编译 器 还 可 能 在 生成 的 文件 里 包含 一 些 调试 信息 ， 
a 个 编译 器 ， 在 输出 文件 里 面 ， 可 能 会 有 
源 代 码 到 机 器 码 地 址 的 连接 。 另 一 方面 ， 带 优化 的 编译 器 ， 更 倾向 于 将 所 有 的 源 代 
码 优 化 掉 后 再 输出 ， 因 此 源 代 码 不 会 出 现在 输出 的 机 器 码 里 。 一 个 逆向 工程 师 这 两 
种 IA ILARA T AEREN ， 因 为 有 的 开发 者 会 打开 优化 ， 有 的 不 会 。 所 以 ， 在 这 文本 书 里 ， 
我 们 会 尽 可 能 关注 每 个 例子 的 调试 和 发 行 版 本 的 代码 特征 。 


第 一 章 


CPU 简介 


CPU 是 一 种 可 以 执行 由 机 器 码 组 成 的 程序 的 设备 。 


词汇 表 : 


Instruction : 用 于 控制 CPU 的 指令 。 最 简单 的 例子 有 : 在 寄存 器 之 问 进行 数据 转移 
操作 ， 内 存 操作 ， 算 术 操 作 。 原 则 上 每 种 CPU 会 有 自己 独特 的 一 套 指 令 构架 
(Instruction Set Architecture(ISA)) ° 


Machine code: 机 器 码 ，CPU 能 直接 处 理 的 代码 。 每 条 指令 都 会 被 译 成 几 个 字 节 的 
机 器 码 。 


Assembly Language: 汇编 语言 ， 助 记 码 和 其 他 一 些 像 宏 那样 的 扩展 组 成 的 、 便 于 
程序 员 编 写 的 语言 。 


CPU register : CPU 寄存 器 ， 每 个 CPU 都 有 一 些 通用 寄存 器 (General Purpose 
Registers(GPR))。X86 有 8 个 ，x86-64(amd64) 有 16 个 ，ARM 有 16 个 ， 最 简单 的 理 
解 寄存 器 的 方法 就 是 ， 把 寄存 器 想 成 一 个 未 指定 类 型 的 临时 变量 。 想 象 你 在 使 用 高 
级 语言 编程 ， 并 且 只 能 用 8 个 32bit( 或 64-bit) 的 变量 。 但 是 只 用 这 些 可 以 完成 非常 多 
的 事情 。 


那么 你 可 能 想 知 道 ， 机 器 码 跟 程序 语言 有 什么 区 别 呢 ?答案 主要 在 于 人 类 和 CPU 的 
思维 方式 并 不 类 似 。 对 于 人 类 来 讲 ， 使 用 例如 C/C++, Java, Python 这 样 高 级 语言 会 
比较 简单 ， 但 是 CPU 更 喜欢 低级 抽象 的 东西 。 也 许 有 一 天 CPU 也 能 直接 执行 高 级 语 
言 的 证 名， 但 那样 的 CPU 肯定 会 变 得 比 天 的 要 复杂 好 几 信 。 类 似 的 ， 人 类 之 所 以 使 
用 汇编 语言 会 感觉 不 很 方便 ， 是 因为 它 非 常 的 低级 ， 而 且 很 难 用 它 写 很 长 的 代码 而 
不 出 错 。 


将 高 级 语言 转换 成 汇编 语言 的 程序 ， 被 称 为 编译 器 。 


1.1 关于 不 同 指令 集 的 几 点 


X86 构架 一 直 都 带 有 可 变 长 度 的 操作 码 ， 因 此 64 位 的 世纪 到 来 时 ，x64 的 扩展 对 这 个 
构架 并 没有 太 大 的 影响 。 事 实 上 x86 构 架 还 包含 着 很 多 最 早 在 16 位 8086 CPU 里 出 现 
的 指令 ， 他 们 在 今天 的 处 理 器 中 依旧 可 以 被 使 用 。 


ARM 是 一 种 带 定 长 操作 符 的 精简 指令 集 的 CPU， 它 过 去 有 很 多 优点 。 


最 初 ，ARM 所 有 的 指令 都 被 编码 为 4 个 字 节 。 这 现在 被 称 为 :ARM 模 式 "。 但 是 人 们 
发 现 这 样 做 并 不 像 他 们 一 开始 所 想 的 那样 节约 。 事 实 上 现实 中 最 常用 的 CPU 指令 都 
可 以 用 更 少 的 字 节 来 编码 ° 因此 他 们 又 增加 了 一 种 每 个 指令 只 以 2 字 节 编码 的 构 

架 ， 叫 做 Thumb。 这 现在 被 称 为 "Thumb 模 式 ”。 然 而 并 不 是 所 有 的 ARM 构 加 都 能 被 
编码 为 2 字 节 ， 所 以 Thumb 构 架 在 某 些 方面 是 有 限制 的 。 值 得 注意 的 是 以 ARM 模 式 
或 Thumb 模 式 编译 得 代码 ， 有 可 能 同时 出 现在 一 个 程序 里 。 


ARM 的 设计 记者 认为 Thumb 可 以 作为 一 种 扩展 存在 ， 这 就 产生 了 Thumb-2， 它 首次 
在 ARMv7 里 出 现 。Thumb-2 依 昌 使 用 2 字 节 的 指令 集 ， 但 是 它 也 有 一 些 4 字 节 的 新 指 
令 。 有 一 种 很 常见 的 错误 观念 ， 认 为 Thumb-2 是 ARM 和 Thumb 的 混合 物 。 这 是 不 对 
的 ，Thumb-2 扩 展 了 对 所 有 处 理 器 特性 的 支持 ， 所 以 他 可 以 和 ARM 模 式 相 竞争 

很 显然 这 个 目标 被 很 好 的 实现 了 。 主 要 的 iPod/iPhone/iPad 应 用 是 用 Thumb- 
2 指令 集 编译 的 (公认 的 ， 这 主要 是 因为 Xcode 把 这 个 设 为 默认 模式 )。 





之 后 ，64 位 的 ARM 发 布 了 ， 这 种 构架 有 4 字 节 的 操作 码 ， 而 且 也 不 需要 任何 附加 的 
Thumb 模 式 。 即 便 如 此 64 位 的 要 求 也 影响 了 构架 ， 导 致 了 现在 有 3 种 ARM 构 架 : 
ARM 模式 、Thumb 模式 (包括 Thumb-2) 和 ARM64。 这 些 构架 有 部 分 交叉 ， 可 以 说 
他 们 是 不 同 的 构架 ， 但 不 能 说 他 们 是 一 个 构架 的 的 不 同 变 种 。 因 此 在 这 本 书 里 ， 我 
们 会 试 着 加 入 全 部 三 种 ARM 构 架 的 代码 片段 。 


顺带 提 一 下 ， 还 有 很 多 带 32 位 变 长 操作 码 的 、 精 简 指 令 集 的 构架 。 例 如 : 
MIPS,PowerPC and Alpha AXP. 


最 简单 的 函数 可 能 只 需要 返回 一 个 常数 值 。 这 有 个 例子 : 清单 2.1: C/C++ 代码 


int f() 
{ 


return 123; 


}; 
让 我 们 编译 一 下 |! 


2.1 x86 


下 面 是 带 优 化 的 GCC 和 MSVC 编 译 器 在 x86 平 台 上 的 输出 : 清单 2.2: 带 优 化 的 
GCC/MSVC (汇编 输出 ) 


f 
mov eax, 123 
ret 


这 里 只 有 两 个 函数 : 第 一 个 把 123 放 入 EAX 寄存 器 里 ， EAX 通常 被 用 作 存 放 有 函数 
的 返回 值 。 第 二 个 是 RET , RET 把 控制 权 交 给 主 调 函 数 。 


主 调 函 数 会 从 EAX 里 取出 返回 值 。 


2.2 ARM 


在 ARM 平 台 上 会 有 一 点 点 区 别 。 
清单 2.3: 带 优化 的 Keil 6/2013 (ARM mode) ASM 输出 


f PROC 
MOV r0,#0x7b ; 123 
BX lr 
ENDP 


ARM 用 Re 来 储存 函数 的 返回 值 ， 所 以 123 被 复制 进 RO. 


在 ARM 构 架 里 返回 值 的 地 址 不 是 保存 在 局 部 堆栈 里 ， 而 是 放 在 链接 寄存 器 里 ， 所 
以 BX LR 指令 转 跳 到 那个 地 址 ， 这 有 效 地 把 控制 权 转 交 给 了 主 调 济 数 。 


值得 注意 的 是 ， 对 于 x86 和 ARM 构 架 来 说 ， MOV 是 一 个 容易 令 人 误解 性 的 名 称 。 
数据 事实 上 没有 被 移动 ， 而 是 被 复制 了 。 


MIPS 


在 MIPS 的 世界 里 有 两 种 寄存 器 命名 的 形式 : 用 数字 (从 so 到 $31 ) 或 者 用 别名 


($VO , $A0 ,村 村 )。 
GCC 汇编 输出 中 会 像 下 面 列表 中 那样 用 数字 表示 寄存 器 : 
清单 2.4: 带 优化 的 GCC 4.4.5 (汇编 输出 ) 


j $31 
li $2,123 # Ox7b 


而 IDA 会 把 它 转换 成 别名 : 清单 2.5: 带 优化 的 GCC 4.4.5 (IDA) 


jr $ra 
li $vO, 0x7B 


$2 (或 $vo ) 被 用 来 储存 函数 的 返回 值 。 LI 代表 “立即 加 载 "， 这 也 是 MIPS 
里 MOV 的 一 个 的 等 价 用 法 。 


剩 下 的 指令 是 转 跳 指令 ( J 或 JR )， 它 把 控制 权 交 给 主 调 函 数 ， 并 转 跳 到 $2 
(à $vo FAR 器 里 的 地 址 。 


这 个 寄存 器 类 似 于 ARM 里 的 LR 寄存 器 。 


你 可 能 想 知 道 为 什么 加 载 指令 ( LI ) 和 转 跳 指令 ( 3 或 JR ) 的 位 置 被 交换 了 。 这 
都 是 由 于 RISC 中 被 称 为 “分 支 延迟 槽 "的 特性 。 
对 于 这 种 现象 发 生 的 原因 有 个 借口 : 这 是 一 些 MIPS 构 架 编译 器 的 一 


对 我 们 的 目的 来 说 并 不 重要 ， 我 们 只 需 记 住 在 MIPS 里 是 这 样 的 : 在 转 跳 指令 
的 指令 会 先 比 转 跳 指令 本 身 先 执行 。 


2.3.1 关于 MIPS 指 令 / 寄 存 器 命名 的 一 点 


在 MIPS 的 世界 里 ， 寄存 器 和 指令 名 习惯 上 使 用 小 写 。 一 致 性， 我 们 坚持 使 
用 大 写 ， 并 在 这 本 书 里 ， 把 这 点 当做 一 个 其 他 编译 器 都 遵守 的 约定 。 


第 三 草 
Hello,world! 


让 我 们 用 《C 语 言 程序 设计 》 中 最 著名 的 例子 开始 吧 [Ker88] : 


#include <stdio.h> 
int main() 


printf("hello, world\n"); 
return 0; 


3.1 x86 


3.1.1 MSVC 


让 我 们 在 MSVC 2010 中 编译 一 下 : 

cl 1.cpp /Fai.asm 

(/Fa 选项 表示 让 编译 器 生产 汇编 代码 文件 ) 
代码 清单 3.1: MSVC 2010 


CONST SEGMENT 

$SG3830 DB 'hello, world', 00H 
CONST ENDS 

PUBLIC | main 

EXTRN _printf:PROC 

; Function compile flags: /Odtp 

. TEXT SEGMENT 


main PROC 
push ebp 
mov ebp, esp 
push OFFSET $SG3830 
call _printf 
add esp, 4 
xor eax, eax 
pop ebp 
ret 0 
_main ENDP 


_TEXT ENDS 


MSVC 生 成 的 汇编 代码 用 的 是 Intel 的 汇编 语法 。|ntel 语 法 与 AT&T 语 法 的 区 别 将 会 在 
3.1 .3 讨论 


编译 器 会 生成 连接 到 1.exe 的 1.0bj 文件 。 在 我 们 的 例子 当中 ， 该 文件 包含 两 
个 部 分 : CONST ( 放 数 据 常 量 ) 和 TEXT (ARA) © 
字符 串 "hello, world" 在 C/C++ 的 类 型 为 const char[] [Str13, 7.3.2],， 然 而 


它 没有 自己 的 变量 名 。 编 译 器 需要 处 理 这 个 字符 事 ， 于 是 就 自己 给 他 定义 了 一 个 内 
部 名 称 $SG3830 ° 


所 以 我 们 的 例子 可 以 重 写 为 下 面 这 样 : 


#include <stdio.h> 
const char $SG3830[]="hello, world\n"; 
int main() 


printf ($SG3830) ; 
return 0; 


让 我 们 回 到 汇编 代码 ， 正 如 我 们 看 到 的 ， 字 符 串 是 由 0 字 节 结束 的 ， 这 是 标准 的 
C/C++ 字 符 串 。 关 于 C/C++ 字 符 串 见 : 57.1.1 


在 代码 部 分 ，_TEXT ， 那 儿 只 有 一 个 函数 : main()。main() 有 函数 与 大 多 数 函 数 一 
样 都 由 起 始 代码 开始 ， 由 收尾 代码 结束 。 


了 苑 数 当 中 的 起 始 代 码 结束 以 后 ， 我 们 看 见 了 对 printf() 浆 数 的 调 
Fl: CALL printf 。 在 调用 之 前 ， 保 存 我 们 问候 语 字符 串 的 地 址 (或 指向 它 的 
指针 ) ， 已 经 在 PUSH 指令 的 帮助 下 ， 被 存放 在 栈 中 。 


当 printf() 函 数 执行 完 返回 到 main() 函 数 的 时 候 ， 字 符 串 地 址 (或 指向 它 的 指针 ) 仍 然 在 
堆栈 中 。 当 我 们 完全 不 需要 它 的 时 候 ， 堆 栈 指针 (ESP 寄 存 器 ) 需要 被 复原 。 


ADD ESP, 4 意思 是 ESP 寄 存 器 的 值 加 4 © 


为 什么 是 4 呢 ? 因为 这 是 32 位 的 程序 ， 通 过 栈 传送 地 址 刚好 需要 4 个 字 节 。 如 果 是 64 
位 的 代码 则 需要 8 字 节 。 ADD ESP, 4 在 效率 上 等 同 于 POP register ， 但 是 后 
者 不 需要 使 用 任何 寄存 器 。 


一 些 编辑 器 (如 |ntel C++ 编译 器 ) 在 同样 的 情况 下 可 能 会 用 POP ECX 代替 

ADD (这 样 的 模式 可 以 在 Oracle RDBMS 代 码 中 看 到 ， 因 为 它 是 由 Intel C++ 编译 器 
编译 的 ) ， 这 两 条 指令 的 效果 基本 相同 ， 但 是 ECX 的 寄存 器 内 容 会 被 改写 。lntel 
C++ 编译 器 可 能 用 POP ECX ， 因 为 这 条 指令 比 ADD ESP, X 更 短 ，( POP ——1 
字 节 对 应 ADD Jd m) 


这 里 有 一 个 在 Oracle RDBMS 中 用 POP 而 不 用 ADD 的 例子 。 清 单 3.2: Oracle 
RDBMS 10.2 Linux (app.o 文件 ) 





. text :0800029A push ebx 
. text :0800029B call qksfroChild 
. text :080002A0 pop ecx 


在 调用 printf() 之 后 ， 原 来 的 C/C++ 代码 执行 return 0 » 3& EO 2$ fi main() Zi 63 
返回 结果 。 在 生成 的 代码 中 ， 这 被 编译 成 指令 XOR EAX，EAX 。 


XOR 事 实 上 就 是 异 或 ， 但 是 编译 器 经 常用 它 来 代替 MOV EAX, 0 原因 就 是 它 需要 
的 字 节 更 短 ( XOR 需要 2 字 节 对 应 MOV 需要 5 字 节 ) © 


有 些 编译 器 则 用 SUB EAX, EAX 就 是 EXA 的 值 减 去 EAX， 也 就 是 返回 0。 


最 后 的 RET 指令 返回 控制 权 给 调用 者 。 通 常 这 是 C/C++ 的 库 函 数 代码 ， 它 会 按 顺 
序 ， 把 控制 权 返 还 给 操作 系统 。 


3.1.2 GCC 


现在 我 们 尝试 在 linux 中 用 GCC 4.4.1 编 译 同 样 的 C/C++ 代 码 
gcc 1.c -0 1 


T—3 > &IDAARGL A S35 BAF > ANA A main() c Ae 17 HK 4] HZ 1 » IDA 
MSVC 一 样 ， 也 是 使 用 Intel 语 法 。 


代码 清单 3.3:IDA 里 的 代码 


main proc near 
var 10 = dword ptr -10h 
push ebp 
mov ebp, esp 
and esp, OFFFFFFFOh 
sub esp, 10h 
mov eax, offset aHelloworld ;` ""hello, world" 
mov [esp-*iO0h-var 10], eax 
call _printf 
mov eax, O 
leave 
retn 
main endp 


结果 几乎 是 相同 的 ， "hello,world" 字符 串 地 址 (保存 在 data 段 的 ) 一 开始 保存 
在 EAX 寄存 器 当中 ， 然 后 保存 到 栈 当 中 。 


此 外 在 函数 开始 我 们 看 到 了 AND ESP, OFFFFFFFOh ， 这 条 指令 将 ESP 寄 存 器 中 的 
值 对 齐 为 16 字 节 。 这 让 堆栈 中 的 所 有 值 ， 都 以 相同 的 方式 对 齐 。( 如 果 分 配 的 内 存 
地 址 大 小 被 对 齐 为 4 或 16 字 节 ，CPU 的 性 能 会 更 好 。) 


SUB ESP，10H 在 栈 上 分 配 16 个 字 节 。 虽然 在 下 面 我 们 可 以 看 到 ， 这 里 其 实 只 需 
要 4 个 字 节 。 


这 是 因为 分 配 的 堆栈 的 大 小 也 被 对 齐 为 16 位 。 
该 


字符 串 的 地 址 【或 这 个 字符 串 指针 ) 直接 存 入 到 堆栈 空间 ， 而 不 使 用 PUSH 指 
。 var 10 ， 有 是 一 个 局 部 变量 ， 也 是 printf() 的 参数 。 


i 
令 


然后 printf() HARAM o 


不 像 MSVC ， 当 gcc 编 译 不 开启 优化 时 ， 它 使 用 Mov EAX’ 0 清空 EAX， 而 不 用 更 
短 的 指令 。 


最 后 一 条 指令 ， LEAVE 相当 于 MOV ESP，EBP 和 POP EBP 两 条 指令 。 换 和 名 话 
说 ， 这 相当 于 将 堆栈 指针 (ESP) 恢复 ， 并 将 EBP 寄存 器 复原 到 其 初始 状态 。 


这 是 很 有 必要 的 ， 因 为 我 们 在 函数 的 开头 修改 了 这 些 寄存 器 的 值 (ESP 和 EBP ) 
(执行 MOV EBP* ESP / AND ESP, ... )。 


3.1.3 GCC:AT&T 语法 


我 们 来 看 一 看 在 AT&T 当 中 的 汇编 语法 ， 这 个 语法 在 UNIX 类 系统 当中 更 普遍 。 代码 
清单 3.4: 让 我 们 用 GCC 4.7.3 编译 gcc -S 1 1.c 
我 们 将 得 到 这 


代码 清单 3.5: GCC 4.7.3 


file gs Ue He 


. section .rodata 
.LCO0: 
.String "hello, world" 
.text 
.globl main 
.type main, Qfunction 
main: 
.LFBO: 
.cfi_startproc 
pushl %ebp 
.Cfi def cfa offset 8 
.Cfi offset 5, -8 
movl %esp, %ebp 
.cfi_def_cfa_register 5 
andl $-16, %esp 
subl $16, %esp 
movl $.LCO, (%esp) 
call printf 
movl $0, %eax 
leave 
.cfi_restore 5 
.cfi_def_cfa 4, 4 
ret 
.cfi_endproc 
.LFEO: 
.Size main, .-main 
.ident "GCC: (Ubuntu/Linaro 4.7.3-1ubuntu1) 4.7.3" 
. section .note.GNU-stack, "", @progbits 
这 段 代 码 包 含 了 很 多 的 宏 (以 点 开始 ) 。 目 前 我 们 不 关心 这 个 。 


现在 为 了 简单 起 见 ， I 些 。 (除了 ng, , p c ， 用 于 编 
码 一 个 以 null 结 尾 的 字符 序列 ) 。 然 后 ， 我 们 将 看 到 这 个 : 


代码 清单 3.6: GCC 4.7.3 


.LCO: 
.String "hello, world" 
main: 
pushl %ebp 
movl %esp, %ebp 
andl $-16, %esp 
subl $16, %esp 
movl $.LCO, (%esp) 
call printf 
movl $0, %eax 
leave 
ret 


在 Intel 与 AT&T 语 法 当中 一 些 主要 的 区 别 就 是 : 


e 操作 数 写 在 后 面 
在 Intel 语 法 中 : NA 
在 AT&T 语 法 中 2 \\\ 
有 一 个 简单 的 记 住 它们 的 方法 : 当 你 面 对 intel 语 法 的 时 候 ， 你 可 以 想象 把 等 号 
(=) 放 到 2 个 操作 数 中 间 ， 当 面 对 AT&T 语 法 的 时 候 ， 你 可 以 放 一 个 右 箭头 (一 ) 
到 两 个 操作 - o 
e AT&T 在 寄存 器 名 之 前 需要 写 一 个 百 分 号 (%) 并 且 在 数字 前 面 需要 加 上 美元 符 
($)。 并 用 圆 括号 替代 方 括号 。 
e AT&T: 以 下 是 一 些 添加 到 操作 符 后 ， 用 来 表示 数据 形式 的 后 
— q — quad (64 bits) 
— | — long (32 bits) 
— w — word (16 bits) 
— b — byte (8 bits) 


让 我 们 回 到 上 面 的 编译 结果 : 它 和 在 IDA 里 看 到 的 是 一 样 的 。 只 有 一 点 不 
E] : errFFFFFOh 被 写成 了 $-16 。 但 这 是 其 实 是 一 样 的 ， 10 进 制 的 16 在 16 进 制 
里 表示 为 0X10。 -0x10 就 等 同 于 0xFFFFFFF0( 针 对 于 32 位 的 数据 类 型 )。 


另外 : 0 MOV 置 0， 而 不 用 XOR 。MOV 仅 仅 加 载 (load) 了 一 个 值 到 
TAE 这 条 指令 的 名 称 是 M n E 而 是 被 复制 了 )。 在 其 他 的 构 
架 上 ， 这 条 指令 会 被 称 作 “LOAD”、“STORE” 或 其 他 类 似 的 名 称 。 


3.2 x86-64 


3.2.1 MSVC-x86-64 
让 我 们 来 试 试 64-bit 的 MSVC : 代码 清单 3.7: MSVC 2012 x64 


$SG2989 DB 'hello, world', OOH 
main PROC 
sub rsp, 40 
lea rcx, OFFSET FLAT:$SG2923 
call printf 


xor eax, eax 
add rsp, 40 
ret 0 

main ENDP 


在 X86-64 里 ， 所 有 的 寄存 器 都 被 扩展 到 64 位 ， 并 且 名 字 前 都 带 有 R- 前 级 。 这 是 为 了 
减少 栈 的 使 用 ( 即 减 少 对 外 部 内 存 / 缓 存 的 访 Ph ， 通常 的 做 法 是 : 用 寄存 器 来 传递 参 
数 (类 似 于 fastcall) 。 也 就 是 ， 一 部 分 参数 通过 寄存 器 传递 ， 其 余 的 通过 栈 传递 。 


在 win64 里 ， RCX,RDX,R8,R9 寄存 器 被 用 来 传递 函数 的 4 个 参数 ， 在 这 里 我 们 可 以 
看 到 4&8 19 2e printf() $ MU TAE A MET ， 没有 用 通过 栈 ， 而 是 用 了 RCX 来 传递 。 
这 些 指针 现在 是 64 位 的 ， 所 以 他 们 通过 64 位 寄存 器 来 传递 ( 带 有 R- 前 级)， 并 且 为 了 


向 后 兼容 ， 依 昌 可 以 使 用 E- 前 级 ， 来 访问 32 位 的 部 分 。 


如 下 图 所 示 ， 这 是 RAX/EAX/AX/AL 在 x86-64 构 架 里 的 情况 
Tth '5xtenumber) | 6th | 5th | 4th | 3rd | 2nd | 1st | Oth 
RAXx64 











main() 元 数 会 返回 一 个 int 类 型 的 值 ， 在 C/C++ 里 为 了 兼容 和 移植 性 ， 依 昌 是 32 位 
的 。 这 就 是 问 什 么 ， 是 EAX 而 不 是 RAX ( 即 寄 存 器 的 低 32 位 部 分 ) 在 函数 最 后 
会 被 清 0。 

在 寄存 器 里 也 有 40 字 节 被 分 配给 了 局 部 堆栈 。 这 被 称 为 “影子 空间 ”。 这 一 点 我 们 之 
后 会 提 及 : 8.2.1 ° 


3.2.2 GCC-x86-64 
这 次 在 64 位 的 Linux 里 试 试 GCC : 
代码 清单 3.8: GCC 4.4.6 x64 


.String "hello, world" 
main: 
sub rsp, 8 
mov edi, OFFSET FLAT:.LCO ; "hello, world" 


xor eax, eax ; number of vector registers passed 
call printf 

xor eax, eax 

add rsp, 8 

ret 


在 Linux,*BSD 和 Mac OS X 里 也 使 用 同一 种 方式 来 传递 函数 参数 。 
前 6 个 参数 使 用 RDI,RSI,RDX,RCX,R8,R9 来 传递 的 ， 剩 下 的 用 栈 。 


所 以 在 这 个 程序 里 ， 字 符 串 指针 被 放 到 EDI (RDI 的 低 32 位 部 分 ) 。 但 是 为 什么 
不 用 RDI 的 64 位 部 分 呢 ? 


记 住 这 一 点 很 重要 : MOV 指令 在 64 位 模式 下 ， 对 低 32 位 进行 写 入 操作 的 时 候 ， 会 
清空 高 32 位 的 内 容 [Int13]。 比 如 Mov EAX °’ 011223344h 将 会 把 值 写 到 RAX 里 ， 并 
且 清 空 RAX 的 高 32 位 区 域 。 


如 果 我 们 打开 编译 好 的 对 得 文件 (object file[.0]), 我 们 会 看 到 所 有 的 指令 的 操作 符 : 
代码 清单 3.9: GCC 4.4.6 x64 


. text :00000000004004D0 main proc near 


. text: 00000000004004D0 48 83 EC 08 sub rsp, 8 

. text :00000000004004D4 BF E8 05 40 00 mov edi, offset 
format ;"hello, world" 

. text :00000000004004D9 31 CO xor eax, eax 

. text: 00000000004004DB E8 D8 FE FF FF call _printf 
.text:00000000004004E0 31 CO xor eax, eax 
.text:00000000004004E2 48 83 C4 08 add rsp, 8 
.text:00000000004004EG C3 retn 
.text:00000000004004E6 main endp 


就 像 看 到 的 那样 ， 在 Ox4004D4 那 行 写 入 EDI 46 15/4 P Y o do de 3X 6] 4 
给 EDI 写 入 64 位 的 值 ， 会 花 掉 7 个 字 节 。 显 然 ，GCC 在 试图 节省 空间 ， 除 此 之 
外 ， 数 据 段 (data segment) 中 包含 的 字 串 不 会 分 配 到 高 于 4GiB 的 地 址 。 


可 以 看 到 在 调用 printf() 函 数 前 ， EAX 被 清空 了 ， 这 是 因为 在 x86-64 的 *NIX 系统 
上 ， 使 用 过 的 向 量 寄存 器 的 数量 会 被 存 入 EAX [Mit13] » 


3.3 关于 GCC 额外 的 一 点 


(3.1.1)， 并 且 匿 名 的 C 字 符 串 带 有 常量 的 类 型 C 字 符 串 在 常量 段 被 分 配 的 地 址 是 一 定 
不 变 的 。 基 于 这 样 的 事实 ， 就 有 一 个 有 趣 的 结论 : 编译 器 可 能 只 用 了 字符 串 的 某 一 


部 分 。 
让 我 们 看 看 这 个 例子 : 
#include <stdio.h> 
int f1() 
printf ("world\n"); 
m f2() 
printf ("hello world\n"); 
int main() 


f1(); 
f2(); 


一 般 的 C/C++ 编 译 器 (包括 MSVC) 会 分 别 分 配给 地 址 两 个 字符 串 ， 但 是 让 我 们 看 看 
GCC 干 了 什么 : 代码 清单 3.10: GCC 4.8.1 + IDA listing 


f1 proc near 


S = dword ptr -1Ch 
sub esp, 1Ch 
mov [esp+1Ch+s], offset s ; "world\n" 
call puts 
add esp, 1Ch 
retn 
f1 endp 
f2 proc near 
S = dword ptr -1Ch 
sub esp, ich 
mov [esp+iCh+s], offset aHello ; "hello " 
call . puts 
add esp, 1Ch 
retn 
f2 endp 
aHello db 'hello ' 
S db 'world',0xa,0 


实际 上 ， 当 我 们 打印 "hello world" 字 符 串 时 ， 这 两 个 单词 被 放 在 内 存 里 相 邻 的 位 
置 。 了 有 函数 f2() 中 调用 的 puts() 并 不 知道 字符 串 已 经 被 分 开 了 “。 事 实 上 字符 串 并 没 
有 被 趴 正 分 开 ， 只 是 在 代码 里 被 假装 分 开 了 。 


3 puts() 被 f1() 调 用 时 ， 他 使 用 “world” 字 符 串 加 上 一 个 0， puts() 并 不 清楚 字 
符 串 之 后 还 有 什么 。 


这 个 聪明 的 小 技巧 至 少 在 GCC 里 被 经 常 使 用 ， 他 能 够 节省 一 些 内 存 。 


3.4 ARM 


作者 根据 自身 对 ARM 处 理 器 的 经 验 ， 选 择 了 几 款 流行 的 编译 器 : 
e 上 殴 入 式 领域 很 流行 的 : Keil Release 6/2013 
e 苹果 的 Xcode 4.6.3 IDE( 其 中 使 用 了 LLVM-GCC4.2 编 译 器 ) 
e GCC 4.9 (Linaro) (for ARM64) 可 用 的 32 位 .exe 
32 位 ARM 的 代码 (包括 Thumb 和 Thumb-2 模 式 ) 被 用 在 这 本 书 的 所 有 例子 里 ， 如 果 
未 做 其 他 提示 ， 我 们 谈论 64 位 ARM 时 会 叫 它 ARM64. 


3.3.1 未 进行 代码 优化 的 Keil 6/2013 编译 : ARMÆ Ñ 
让 我 们 在 Keil 里 编译 我 们 的 例子 


armcc.exe -arm -c90 -00 1.c 
armcc 编 译 器 可 以 生成 intel 语 法 的 汇编 程序 列表 ， 但 是 里 面 有 高 级 的 ARM 处 理 器 相 
关 的 宏 ， 对 我 们 来 讲 更 希望 看 到 “指令 原来 的 样子 *， 所 以 让 我 们 看 看 IDA 反 汇编 之 后 
的 结果 。 


代码 清单 3.11: 无 优化 的 Keil 6/2013 (ARM 模式 ) IDA 


. text :00000000 main 

.text:00000000 10 40 2D E9 STMFD SP!, {R4,LR} 
.text:00000004 1E OE 8F E2 ADR RO, aHelloWorld ; "h 
ello, world" 

.text:00000008 15 19 00 EB BL _ 2printf 
.text:0000000C 00 O0 AO E3 MOV RO, #0 
.text:00000010 10 80 BD E8 LDMFD SP!, {R4, PC} 


.text:000001EC 68 65 6C 6C +aHelloworld DCB "hello, world",O ; 
DATA XREF: main+4 


在 例子 中 ， 我 们 可 以 发 现 所 有 指令 都 是 4 字 节 的 ， 因 为 我 们 编译 的 时 候选 择 了 ARM 
模式 ， 而 不 是 Thumb 模 式 。 


最 开始 的 指令 是 STMFD SP!, (R4, LR) ， 这 条 指令 类 似 X86 平 台 的 PUSH 指令 ， 
它 会 把 2 个 寄存 器 (R4 和 LR) 的 值 写 到 栈 里 。 不 过 为 了 简化 ， 在 armcc 编译 器 输 
出 的 汇编 代码 里 会 写成 PUSH {R4，LR} ， 但 这 并 不 准确 ， 因 为 PUSH 命令 只 在 

Thumb 模 式 下 可 用 ， 所 以 为 了 减少 混乱 ， 我 们 用 IDA 来 做 反 汇 编 工 具 。 


这 指令 首先 会 减少 SP 的 值 ， 这 样 它 在 栈 中 指向 的 空间 就 被 释放 ， 以 留 给 新 条 目 使 
用 ， 然 后 将 R4 和 LR 的 值 存 入 被 修改 后 的 SP 的 储存 区 域 中 。 


这 条 指令 〈 类 似 于 Thumb 模 式 的 PUSH) 允许 一 次 压 入 好 几 个 寄存 器 的 值 ， 非常 实 
用 。 顺 带 说 一 下 ， 在 x86 里 面 它 没 有 等 价 的 指令 。 还 有 一 点 值得 注意 的 

是 : STMFD 指令 是 广义 的 PUSH 指令 (扩展 了 它 的 功能 )， 因 为 他 能 操作 任何 寄存 
器 ， 不 只 是 SP 。 换 句 话说， STMFD 可 以 用 于 将 一 组 寄存 器 储存 在 特定 的 内 存 地 
址 上 。 


ADR RO, aHelloworld 这 条 指令 将 "hello, world" 字 串 的 地 址 偏 移 加 上 或 减 

去 PC 寄存 器 的 值 。 有 人 会 问 ， PC 寄存 器 在 这 里 有 什么 用 呢 ? 这 被 称 作 浮动 地 址 

码 (position-independet code) ， 这 样 的 代码 可 以 在 内 存 中 非 国定 的 地 址 上 运行 。 
换 句 话说 ， 这 是 和 PC 寄存 器 相关 的 寻 址 。 ADR 这 条 指令 ， 考 虑 了 指令 的 地 址 和 字 
符 串 夏 正 所 在 的 地 址 的 差异 。 无 论 操作 系统 把 我 们 的 代码 加 载 到 哪里 ， 这 个 差 值 ( 偏 
移 ) 总 是 相同 的 。 这 也 是 为 什么 ， 我 们 每 次 都 要 加 上 当前 的 指令 地 址 (从 PC 里 )， 以 
获取 内 存 中 字 囊 的 绝对 地 址 。 


BL ”2print 这 条 指令 用 于 调用 printf() 函 数 ， 以 下 是 这 条 指令 是 如 何 工作 的 : 


。 将 BL 指令 (0xC) 后 面 的 地 址 写 入 LR 寄 存 器 ; 
e Ke de printf() i à A THE A PCS FES o 42H] XC Ie printf() HA » 


» 


当 printf() 函 数 执行 完 之 后 ， 它 必须 知道 该 把 控制 权 返 回 谁 。 这 就 是 为 什么 ， 每 个 函 
数 都 会 把 控制 权 交 给 LR 寄存 器 中 的 地 址 。 


函数 返回 地 址 的 存放 位 置 ， 也 正 是 “ 纯 "-RISC 处 理 器 (例如 ARM) 和 CISC 处 理 器 ( 例 
如 X86) 的 区 别 。 


另外 ， 一 个 32 位 地 址 或 者 偏 移 量 不 能 被 编码 到 32 位 BL 指令 里 ， 因 为 BL 指令 只 有 24 
位 的 空间 。 我 们 应 该 还 记得 ， 所 有 的 ARM 模 式 下 的 指令 都 是 4 字 节 的 (32 位 ) 。 因 
此 ， 指 令 占 用 了 4 位 的 地 址 。 这 也 就 意味 着 最 后 2bits( 这 里 总 会 被 设置 成 0) 被 忽略 

了 ， 总 的 来 说 ， 我 们 有 26 位 可 用 于 偏 移 编码 。 这 足够 去 访问 大 约 当前 _PC +32M 的 
地 址 。 


下 面 我 们 来 看 MOV RO» #0 这 条 语句 ， 这 条 语句 就 是 把 0 写 入 R0 寄 存 器 。 这 是 因 
为 C 函 数 返回 了 0， 返 回 值 会 放 在 RO 里 。 


最 后 一 条 指令 是 LDMFD SP!, R4,PC ， 这 是 STMFD 的 逆 指令 。 为 了 将 初始 值 存 
A R4 和 PC 寄存 器 里 ， 这 条 指令 会 从 栈 上 (或 任何 其 他 的 内 存 区 域 ) 读 取保 存 的 
值 ， 并 且 增 加 堆栈 指针 SP 的 值 。 这 非常 类 似 x86 平 台 里 的 POP 指令 。 


最 前 面 那 条 STMFD 指令 ， 将 RA ， 和 LR 寄存 器 成 对 保存 到 栈 中 。 在 LDMFD 执 
AF AVATAR > RA 和 PC 会 被 复原 。 


我 们 已 经 知道 ， 函 数 的 返回 地 址 会 保存 到 LD 寄存 器 里 。 第 一 条 指令 会 把 他 先 保存 
到 栈 里 ， 这 是 因为 main() 调 用 printf() 部 数 时 ， 会 使 用 LD 寄存 器 。 在 防 数 的 最 后 ， 这 
个 值 会 被 直接 写 入 PC 寄存 器 ， 完 成 函数 的 返回 操作 。 


因为 在 C/C++ 里 main() 一 般 是 主 函 数 ， 控 制 权 会 返回 给 系统 加 载 器 或 者 CRT 里 面 
的 指针 或 其 他 类 似 的 东西 。 


所 有 的 这 些 都 允许 在 函数 的 结尾 忽略 BX LR 指令 。 

汇编 代码 里 的 DCB 关键 字 用 来 定义 ASCI 字 串 数 组 ， 就 像 X86 汇 编 里 的 DB 关键 
字 o 

3.4.2 未 进行 代码 优化 的 Keil 6/2013 编译 : (Thumb 模 式 ) 

让 我 们 用 下 面 的 指令 ， 将 相同 的 例子 用 Keil 的 Thumb 模 式 来 编译 一 下 。 
armcc.exe -thumb -c90 -00 1.c 


我 们 可 以 在 |DA 里 得 到 下 面 这 样 的 代码 : 代码 清单 3.12: Non-optimizing Keil 
6/2013 (Thumb mode) + IDA 


. text :00000000 main 


.text:00000000 10 B5 PUSH {R4, LR} 
.text:00000002 CO AO ADR RO, aHelloWorld ; "hell 
o, world" 

.text:00000004 06 FO 2E F9 BL _ 2printf 
.text:00000008 00 20 MOVS RO, 40 

.text:0000000A 10 BD POP (RA, PC} 


.text:00000304 68 65 6C 6C +aHelloWorld DCB "hello, world",0O ; 
DATA XREF: main+2 


我 们 首先 就 能 注意 到 指令 都 是 2 字 节 (16 位 ) 的 了 ， 这 正 是 Thumb 模 式 的 特征 。 


但 BL 指 令 是 2 由 个 16 位 的 指令 来 构成 的 。 因 为 不 可 能 只 用 16 位 操作 符 里 的 小 空间 ， 
去 加 载 AU is e > 因此 ， 第 一 个 16 位 指令 ， 用 来 加 载 函 数 偏 移 的 高 10 位 ， 第 
二 个 指令 加 载 函 数 偏 移 的 低 11 位 。 正 如 我 说 过 的 ， 所 有 的 Thumb 模 式 下 的 指令 NA 
2 字 节 (16 位 ) 的 。 这 就 意味 着 一 个 Thumb 指 令 ， 无 论 如 何不 可 区 在 奇数 位 的 地 址 
上 “。 基 于 以 上 因素 ， 地 址 的 最 后 一 位 将 会 会 在 编码 指令 时 省 略 。 总 的 来 讲 ，BL 在 
Thumb 模 式 下 可 以 访问 当前 _PC +2M 的 地 址 。 


至 于 在 这 个 函数 中 的 其 他 指令 : PUSH 和 POP ， 它 们 跟 上 面 讲 到 

的 STMFD/LDMFD 很 类 似 ， 但 这 里 不 需要 指定 SP 寄存 器 ， ADR 指令 (eden 
工作 方式 相同 。 Movs 指令 将 函数 的 返回 值 0 写 到 了 Reo FARE RARA 

0 o 


3.4.3 开启 代码 优化 的 Xcode (LLVM) (ARMS X) 


Xcode 4.6.3 不 开启 代码 优化 的 情况 下 ， 会 产生 非常 多 宛 余 的 代码 ， 所 以 我 们 学 习 一 
个 优化 过 的 版 本 。 这 个 版 本 所 用 的 指令 的 数量 会 尽 可 能 的 少 。 


开启 -03 编译 选项 


Listing 3.13: Optimizing Xcode 4.6.3 (LLVM) (ARM mode) 


. text:000028C4 _hello world 

. text:000028C4 80 40 2D E9 STMFD SP!, {R7,LR} 
. text:000028C8 86 06 01 E3 MOV RO, 40x1686 
. text:000028CC OD 70 AO E1 MOV R7, SP 

. text:9000028DO 00 00 40 E3 MOVT RO, #0 

. text:000028D4 00 00 8F EO ADD RO, PC, RO 

. text:9000028D8 C3 05 00 EB BL . puts 

. text:000028DC 00 00 AO E3 MOV RO, #0 

. text:000028bE0 80 80 BD E8 LDMFD SP!, {R7,PC} 


. Ccstring:00003F62 48 65 6C 6C -aHelloWorld 0 DCB "Hello worl 
d!", © 


我 们 已 经 非常 熟悉 STMFD 和 LDMFD 指令 了 ， 这 里 就 跳 过 不 讲 。 


下 一 条 ， Mov 指令 就 是 将 数字 9x1686 SA RO 寄存 器 里 。 这 个 值 是 字符 
# "Hello world ! ”的 指针 偏 移 量 。 


R7 寄存 器 (在 [App10] 里 这 是 个 标准 ) 是 一 个 帧 指针 ， 在 之 后 的 章节 我 们 会 介绍 它 。 


MOVT RO: 40 ( MOVe Top ) 指 令 时 向 寄存 器 RO 的 高 16 位 写 入 0。 这 是 因为 在 
ARM 模 式 下 ， MOV 这 条 指令 ， 只 对 低 16 位 进行 操作 。 记 住 ! 在 ARM 模 式 下 ， 所 有 
的 指令 都 被 限定 在 32 位 以 内 。 当 然 这 个 限制 并 不 影响 ， 数 据 在 2 个 寄存 器 之 问 的 直 
接 的 转移 。 这 也 是 MOVT 这 种 向 高 16 位 (包含 第 16~31 位 ) 写 入 的 附加 指令 存在 的 意 
义 。 但 在 这 里 它 其 实 是 多 余 的 ， 因 为 Movs RO ，#0x1686 这 条 指令 也 能 把 寄存 器 
的 高 16 位 清 0。 这 或 许 就 是 相对 于 人 脑 来 说 编译 器 的 不 足 。 


ADD RO’ PC’ RO 指令 把 PC 寄存 器 的 值 相 到 RO 里 ， 用 来 计 
算 "Hello world!" 字符 囊 的 绝对 地 址 。 这 如 我 们 所 知 的 ， 这 里 采用 浮动 地 址 
码 ， 所 以 这 个 修正 还 是 有 必要 的 。 


BL 指令 调用 了 puts() 函数 ， 而 不 是 printf() ° 


GCC 将 第 一 个 printf() HAXk4RA& A 1 puts() 。 因 为 printf() 函数 只 有 单一 
参数 时 ， 跟 puts() 函数 是 类 似 的 。 在 大 多 数 情 况 下 ， printf() 的 字符 串 参 数 

里 ， 没 有 以 % 开头 的 特殊 控制 符 的 时 候 ， 两 个 函数 的 会 输出 相同 的 结果 。 如 果 不 

是 这 样 ， 这 两 个 函数 的 功能 会 有 所 差别 。 


为 什么 编译 器 会 替换 printf() 为 puts() 呢 ? 这 或 许 是 因为 puts() 更 快 一 
Heo ALA puts() 只 是 做 了 字 串 的 标准 输出 ( stdout )， 而 不 需要 将 字符 串 逐 位 
与 % FA rbd o 


下 一 条 语句 ， 我 们 可 以 看 到 了 熟悉 的 "MOV RO, #0" 指令 ， 用 来 将 RO 寄存 器 设 
为 0。 

3.4.4 开启 代码 优化 的 Xcode(LLVM) 编 译 Thumb-2 模 式 

在 默认 情况 下 ，Xcode4.6.3 会 生成 如 下 的 Thumb-2 代 码 

代码 清单 3.14: 带 优化 的 Xcode 4.6.3 (LLVM) (Thumb-2 模式 ) 


_ text:00002B6C hello world 


. text:00002B6C 80 B5 PUSH {R7,LR} 

. text:00002B6E 41 F2 D8 30 MOVW RO, #0x13D8 
. text:00002B72 6F 46 MOV R7, SP 

. text:00002B74 CO F2 00 00 MOVT.W RO, #0 
__text:00002B78 78 44 ADD RO, PC 
__text:00002B7A 01 FO 38 EA BLX _puts 

. text:00002B7E 00 20 MOVS RO, 40 

. text:00002B80 80 BD POP {R7,PC} 


__cstring:00003E70 48 65 6C 6C 6F 20 +aHelloWorld DCB "Hello wor 
ld!",0xA,0 


正如 我 们 刚刚 回忆 过 的 ， BL fe BLX 指令 在 Thumb 模 式 下 ， 被 编码 为 一 对 16 位 的 
指令 。 在 Thumb-2 模 式 下 这 操作 符 些 会 被 这 样 扩展 ， 所 以 新 的 指令 会 被 编码 成 32 位 
的 指令 。 很 容易 就 能 发 现 ，Thumb-2 的 操作 码 总 是 以 9xFx 或 OxEx 开头。 但 是 
在 IDA 的 反 汇 编 代 码 里 ， 操 作 符 的 位 置 被 交换 过 了 。 对 于 ARM 处 理 器 来 说 ， 这 是 因 
为 指令 以 以 下 方式 编码 : 最 后 一 个 字 节 在 最 前 面 ， 接 下 来 是 第 一 个 字符 (在 Thumb 
和 Thumb-2 模 式 里 )， 对 于 四 个 字 节 的 操作 符 则 是 : 首先 是 第 四 个 字 节 ， 然 后 是 第 
三 个 ， 接 下 来 是 第 二 个 ， 最 后 才 是 第 一 个 字 节 (这 是 由 于 不 同 的 字 节 序 ) 。 


下 面 是 在 IDA 里 ， 字 节 是 如 何 排列 的 : 
e ARM 和 ARM64 模式 : 4-3-2-1; 


e Thumb 模式 : 2-1; 
e Thumb-2 模式 里 的 一 对 16 位 指令 : 2-1-4-3. 


所 以 我 们 能 看 出 来 ， MOVW ， MOVT.W 和 BLX 这 几 个 指令 都 是 以 9xFx 开始 。 
在 Thumb-2 指 令 里 有 一 条 是 MOVW RO, #0x13D8 , 它 的 作用 是 将 16 位 的 值 ， 写 

到 Ro 的 低 16 位 里 面 ， 并 将 高 位 清 零 。 

MOVT.W RO, #0 的 作用 类 似 与 前 面 讲 到 的 MOVT 指令 ， 但 它 工作 在 Thumb-2 模 式 
下 o 


还 有 些 其 他 的 差异 ， 比 如 BLX 指令 替代 了 上 面 用 到 的 BL 指令 。 这 样 做 的 区 别 在 
于 : 这 条 指令 除了 将 RA 存 入 到 寄存 器 LR 里 ， 还 将 控制 全 交 给 puts() BR? 
并 且 处 理 器 也 从 Thumb/Thumb-2 模 式 转 换 到 了 ARM 模 式 (或 者 相反 ) 。 这 条 指令 
放 在 这 里 ， 是 因为 跳 转 到 了 像 下 面 这 样 的 位 置 (下 面 的 代码 以 ARM 模 式 编码 ) © 


__symbolstub1:00003FEC puts ; CODE XREF: khello wo 
rld+E 
__symbolstub1:00003FEC 44 FO 9F E5 LDR PC, - imp puts 


这 本 质 上 是 个 到 puts() 导入 地 址 的 转 跳 。 


可 能 会 有 细心 的 读者 要 问 了 :为 什么 不 在 需要 的 时 候 ， 直 接 调用 puts() 函数 呢 ? 
因为 那样 做 会 浪费 内 存 空间 。 


大 多 数 程 序 都 会 使 用 额外 的 动态 库 (dynamic libraries)(Windows 里 面 的 DLL， 还 有 
*NIX 里 面 的 .so，MAC OS X 里 面 的 .dylib), 经 常 使 用 的 库 函 数 会 被 放 入 动态 库 中 ， 当 
然 也 包括 标准 C 函 数 puts() ° 


在 可 执行 的 二 进 制 文件 里 (Windows 的 PE 里 的 .exe 文 件 ，ELF 和 Mach-O 文 件 ) 都 会 有 
输入 表 段 。 它 是 一 个 用 来 引入 额外 模块 里 模块 名 称 和 符号 (函数 或 者 全 局 变量 ) 的 
列表 o 

系统 加 载 器 (OS loader) 会 加 载 所 有 需要 的 模块 ， 当 在 主 模块 里 枚 举 输 入 符号 的 

时 候 ， 会 确定 每 个 符号 真正 地 址 。 


在 我 们 的 这 个 例子 里 ， ^ imp puts 就 是 一 个 系统 加 载 器 储存 附加 模块 监 正 地 址 
的 32 位 的 变量 。 LDR 指令 把 这 个 值 从 变量 里 读 取出 来 ， 并 写 入 到 PC 寄存 器 里 ， 
并 将 控制 权 交 给 那个 地 址 。 


所 以 为 了 减少 系统 加 载 器 完成 这 个 过 程 所 需 的 时 间 ， 最 好 将 所 有 符号 的 地 址 一 次 性 
写 到 一 个 特定 的 地 方 。 


另外 ， 我 们 前 面 也 指出 过 ， 我 们 没 办 法 只 用 一 条 指令 Jc dE 情况 
下 ， 就 将 一 个 32 位 的 值 保存 到 寄存 器 里 。 因 此 ， 最 好 的 办 法 就 是 ， 单 独 分 出 一 个 函 
数 ， 用 来 在 ARM 模 式 下 将 控制 权 交 给 动态 链接 库 ， 文 样 单一 
指令 的 函数 〈 称 做 Thunk function) ， 然 后 从 Thumb 模 式 里 也 能 去 调用 。 


在 先前 的 例子 中 (以 ARM 模 式 编译 的 例子 ) ， BL 指令 也 是 跳 转 到 了 同一 个 Thunk 
function 里 。 尽 管 没有 进行 模式 的 转变 (所 以 指令 里 不 存在 那个 "X") © 


RT KH BIL 
形 实 转换 函数 很 难 理解 ， 表 面 上 看 是 因为 它 的 具有 误导 性 的 名 字 。 


理解 它 最 简单 的 方法 是 把 他 看 做 一 个 适配器 ， 或 者 将 一 种 插口 转换 为 另 一 种 的 转换 
器 。 举 个 例子 ， 一 个 适配器 允许 一 个 英 式 的 电源 插头 插入 一 个 美式 的 插座 ， 反 之 刘 


形 实 转换 函数 有 时 被 称 作 封装 器 。 


以 下 是 对 该 函数 的 一 些 描述 : 


P. Z. Ingerman 说 这 个 函数 是 "提供 地 址 的 一 段 代码 "， 他 于 1961 年 ， 发 明了 形 实 
转换 函数 ， 并 作为 Algol-60 程序 调用 里 ， 将 实 参 转换 为 标准 定义 的 一 种 方式 。 
如 果 调 用 一 个 带 有 表达 式 形 参 的 程序 ， 编 译 器 会 生成 一 个 形 实 转换 函数 来 计算 
表达 式 的 值 ， 并 将 结果 的 地 址 放 在 某 些 标 准 位 置 上 。 ... Microsoft 和 IBM 都 在 
他 们 的 基于 Intel 的 系统 里 面 定义 了 一 个 “16- 位 的 环境 "( 带 有 讨厌 的 段 寄 存 器 和 
64K 的 内 存 限制 ) 和 一 个 “32- 位 的 环境 "( 带 有 平坦 寻 址 和 半 实 时 的 内 存 管理 )。 这 
两 种 环境 都 能 在 相同 的 电脑 和 操作 系统 上 运行 (感谢 我 们 在 Microsoft 世 界 里 称 之 
为 WOW 的 东西 ，WOW 代 表 着 Windows On Windows) » MS 和 IBM 都 决定 将 
16 位 到 32 位 和 相反 的 转换 过 程 称 为 一 个 "thunk" : 对 于 Windows 95 来 说 ， 其 至 
有 个 叫做 “Thunk 编 译 器 "的 工具 一 一 THUNK.EXE 。 


(The Jargon File) 





3.4.5 ARM64 

GCC 

让 我 们 在 ARM64 上 用 GCC 4.8.1 编 译 一 下 这 个 程序 。 
代码 清单 3.15: 无 优化 的 GCC 4.8.1 + objdump 


1 0000000000400590 «main»: 
2 400590: a9bf 7bfd stp x29, x30, [Sp,#-16]! 
3 400594: 910003fd mov x29, sp 
4 400598: 90000000 adrp x0, 400000 « init-Ox3b8» 
5 40059c: 91192000 add x0, xO, £Z0x648 
6 400520: 97ffffao bl 400420 <puts@plt> 
7 4005a4: 52800000 mov wO, #0x0 
// #0 
8 4005a8: a8c17bfd ldp x29, x30, [sp],#16 
9 4005ac: d65f03c0 ret 
10 
11 
12 
13 Contents of section .rodata: 


14 400640 01000200 00000000 48656c6c 6f210a00 ........ Hello! 


代码 清单 3.16: main() 返回 uint64 t 类 型 的 值 


Zinclude «stdio.h» 
Zinclude <stdint.h> 


uint64 t main() 


{ 
printf ("Hello!\n"); 
return 0; 


结果 是 相似 的 ， 下 面 是 在 那 一 行 ， MOV 看 起 来 是 怎么 样 的 : 


代码 清单 3.17: 无 优化 的 GCC 4.8.1 + objdump 


4005a4: d2800000 mov x0, #0x0 


3.5 MIPS 
3.5.1 关于 全 局 指针 
LDA 负载 对 然后 恢复 了 x29 和 x30 寄存 器 。 


3.5.2 带 优 化 的 GCC 
让 我 们 看 看 下 面 这 个 例子 ， 他 说 明了 全 局 指针 的 概念 : 
代码 清单 3.18: 带 优化 的 GCC 4.4.5 (汇编 输出 ) 


// #0 





1 $LCO: 

2 ; N000 is zero byte in octal base: 

3 .ascii "Hello, world!N012N000" 

4 main: 

5 ; function prologue. 

6 ; set the GP: 

7 lui $28,9hi( (gnu local gp) 

8 addiu $sp, $sp, -32 

9 addiu $28,$28,%1l0(__gnu_local_gp) 

10 ; save the RA to the local stack: 

11 SW $31, 28($sp) 

12 ; load the address of the puts() function from the GP to 
$25: 

13 lw $25,%cal116(puts) ($28) 

14 ; load the address of the text string to $4 ($a0): 

15 lui $4,%hi($LCO) 

16 ; jump to puts(), saving the return address in the link r 
egister: 

17 jalr $25 

18 addiu $4,$4,%lo($LCO) ; branch delay slot 

19 ; restore the RA: 

20 lw $31, 28($sp) 

21 ; copy © from $zero to $vO: 

22 move $2, $0 

23 ; return by jumping to the RA: 

24 j $31 

25 ; function epilogue: 

26 addiu $sp, $sp, 32 ; branch delay slot 


代码 清单 3.19: 带 优化 的 GCC 4.4.5 (IDA) 





1 . text : 00000000 main: 

2 . text : 00000000 

3 . text : 00000000 var_10 = -0x10 

4 . text : 00000000 var_4 = -4 

5 . text : 00000000 

6 ; function prologue. 

7 ; set the GP: 

8 . text : 00000000 lui $gp, (__gnu_local_g 
p >> 16) 

9 . text: 00000004 addiu $sp, -0x20 

10 .text:00000008 la $gp, (. gnu loc 
al gp & OxFFFF) 

11 ; save the RA to the local stack: 

12 .text:0000000C SW $ra, Ox20-var 4 
($sp) 

13 ; Save the GP to the local stack: 

14 ; for some reason, this instruction is missing in the GCC 
assembly output: 

15 . text : 00000010 SW $gp, 0x20-var 1 
O($sp) 

16 ; load the address of the puts() function from the GP to 

$t9: 

17 . text : 00000014 lw $t9, (puts & Ox 
FFFF ) ($gp) 

18 ; form the address of the text string in $a0: 

19 . text: 00000018 lui $a0, ($LCO >> 16) 

# "Hello, world!" 

20 ; jump to puts(), Saving the return address in the link r 
egister: 

21 . text :0000001C jalr $t9 

22 . text: 00000020 la $a0, ($LCO & Ox 
FFFF) # "Hello, world!" 

23 ; restore the RA: 

24 . text : 00000024 lw $ra, Ox20+var_4( 
$sp) 

25 ; copy © from $zero to $vO: 

26 .text:00000028 move $vO, $zero 

23 ; return by jumping to the RA: 

28 . text: 0000002C jr $ra 

29 ; function epilogue: 

30 . text : 00000030 addiu $sp, 0x20 


3.5.3 无 优化 的 GCC 
无 优化 的 GCC 会 产生 更 见长 的 代码 : 
代码 清单 3.20: 无 优化 的 GCC 4.4.5 (汇编 输出 ) 


OMANODOBRWNE 


代码 清单 3.21: 无 优化 的 GCC 4.4.5 (IDA) 


OMONODOABRWNER 


$LCO: 


main: 


.ascii "Hello, world! \012\000" 


; function prologue. 
; save the RA ($31) and FP in the stack: 





addiu $sp, $sp, -32 
SW $31,28($sp) 
SW $fp, 24($sp) 
; set the FP (stack frame pointer): 
move $fp, $sp 

; Set the GP: 
lui $28,%hi(__gnu_local_gp) 
addiu $28, $28,%1l0(__gnu_local_gp 

; load the address of the text string: 
lui $2,%hi($LCO) 
addiu $4, $2,%1o0($LCO) 

; load the address of puts() using the GP: 
lw $2,%call116(puts) ($28) 
nop 

; call puts(): 
move $25, $2 
jalr $25 
nop ; branch delay slot 


; restore the GP from the local stack: 
$28,16($fp) 
; set register $2 ($V0O) to zero: 


lw 


move 


$2,$0 


; function epilogue. 
; restore the SP: 


move 


$sp, $fp 


; restore the RA: 


lw 


$31, 28($sp) 


; restore the FP: 


lw 
addiu 


$fp, 24($sp) 
$sp,$sp, 32 


; jump to the RA: 


.text: 
.text: 
.text: 
.text: 
.text: 
. text: 00000000 


J 
nop 


00000000 
00000000 
00000000 
00000000 
00000000 


$31 


main: 


var_10 
var_8 
var_4 


; function prologue. 
; save the RA and FP in the stack: 


.text: 


00000000 


, 


branch 


delay slot 


addiu 


) 


$sp, 


-0x20 


10 .text:00000004 SW $ra, Ox20+v 


ar_4($sp) 

11 . text : 00000008 SW $fp, Ox20+v 

ar_8($sp) 

12 ; set the FP (stack frame pointer): 

13 .text:0000000C move $fp, $sp 

14 ; set the GP: 

15 . text : 00000010 la $gp, __gnu_ 

local_gp 

16 . text: 00000018 SW $gp, Ox20+v 

ar 10($sp) 

us ; load the address of the text string: 

18 .text:0000001C lui $vO, (aHelloWo 

rld >> 16) # "Hello, world!" 

19 .text:00000020 addiu $a0, $vO, (a 

Helloworld & OXFFFF) # "Hello, world!" 

20 ; load the address of puts() using the GP: 

21 . text: 00000024 lw $vO, (puts 

& OXFFFF)($gp) 

22 . text : 00000028 or $at, $zero 
; NOP 

23 ; call puts(): 

24 . text: 0000002C move $t9, $vO 

25 . text : 00000030 jalr $t9 

26 . text : 00000034 or $at, $zero | 

NOP 

27 ; restore the GP from local stack: 

28 . text : 00000038 lw $gp, Ox20+v 

ar 10($fp) 

29 ; set register $2 ($VO) to zero: 

30 .text:0000003C move $vO, $zero 

31 ; function epilogue. 

32 ; restore the SP: 

33 .text:00000040 move $sp, $fp 

34 ; restore the RA: 

35 . text : 00000044 lw $ra, 0x20+v 

ar_4($sp) 

36 ; restore the FP: 

37 . text: 00000048 lw $fp, Ox20+v 

ar_8($sp) 

38 . text : 0000004C addiu $sp, 0x20 

39 ; jump to the RA: 

40 . text : 00000050 jr $ra 

41 . text : 00000054 or $at, $zero 

; NOP 


3.5.4 堆栈 结构 在 本 例 里 面 的 作用 


文本 字符 串 的 地 址 是 通过 寄存 器 传递 的 。 那 为 什么 要 设置 一 个 局 部 堆栈 呢 ? 这 样 做 
的 原因 是 寄存 器 RA 和 GP 的 值 必须 被 储存 在 茶 个 地 方 (因为 printf() 被 调用 
了 )， 局 部 堆栈 就 是 用 于 这 个 目的 的 。 如 果 这 是 个 末端 函数 ， 那 么 有 可 能 除去 他 的 有 函 


数 开 始 和 函数 结尾 ， 例 如 :2.3 


3.5.5 带 优化 的 GCC: 把 它 加 载 到 GDB 


代码 清单 3.22: GDB session 的 例子 


root@debian-mips:~# gcc hw.c -03 -o hw 

root@debian-mips:~# gdb hw 

GNU gdb (GDB) 7.0.1-debian 

Copyright (C) 2009 Free Software Foundation, Inc. 

License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licen 
ses/gpl.html> 

This is free software: you are free to change and redistribute i 
Be 

There is NO WARRANTY, to the extent permitted by law. Type "show 
copying" 

and "show warranty" for details. 

This GDB was configured as "mips-linux-gnu". 

For bug reporting instructions, please see: 
<http://www.gnu.org/software/gdb/bugs/>... 

Reading symbols from /root/hw...(no debugging symbols found)...d 
one. 

(gdb) b main 

Breakpoint 1 at 0x400654 

(gdb) run 

Starting program: /root/hw 

Breakpoint 1, 0x00400654 in main () 

(gdb) set step-mode on 

(gdb) disas 

Dump of assembler code for function main: 


0x00400640 «main-0»: lui gp, 0x42 
0x00400644 <main+4>: addiu sp, sp, -32 
0x00400648 «main-8»: addiu gp, gp, - 30624 
0x0040064c <mainti2>: SW ra, 28(sp) 
0x00400650 «main-16»: SW gp, 16(sp) 
0x00400654 <main+20>: lw t9, -32716(gp) 
0x00400658 <maint+24>: lui a0, 0x40 
0x0040065c <maint+28>: jalr t9 
0x00400660 <maint+32>: addiu a0,a0,2080 
0x00400664 <maint+36>: lw ra, 28(sp) 
0x00400668 «main-40»: move v0, zero 
0x0040066c <maint+44>: jr ra 
0x00400670 <main+48>: addiu sp, sp, 32 
End of assembler dump. 

(gdb) s 

0x00400658 in main () 

(gdb) s 

0x0040065c in main () 

(gdb) s 


Ox2ab2de60 in printf () from /lib/libc.so.6 
(gdb) x/s $a0 
0x400820: "hello, world" 


(gdb) 


3.5.5 小 结 


x86/ARM 和 x64/ARM64 代码 的 主要 区 别 是 : x64 中 指向 字符 串 的 指针 是 64 位 长 度 
的 。 现 代 CPU 是 64 位 的 主要 原因 是 :内 存 成 本 的 下 降 和 各 种 应 用 对 64 位 的 强烈 需 
求 。 我 们 现在 能 够 给 电脑 加 很 多 内 存 ， 以 至 于 远 远 超过 了 32 位 指针 能 够 寻 址 的 范 
围 。 正 因 如 此 ， 现 在 所 有 的 指针 都 是 64 位 的 了 。 


3.7 练习 


e http://challenges.re/48 
e http://challenges.re/49 


£f, Be 89] Fe dde 
C 语 言 的 函数 通常 使 用 类 似 下 面 的 代码 片段 作为 序幕 


push ebp 
mov ebp，esp 
Sub esp, X 


这 些 指 令 将 EBP 寄存 器 的 值 入 栈 ， 然 后 把 ESP 赋 值 给 EBP， 最 后 在 栈 中 为 局 部 变量 
配 


分 CARH o 

在 函数 执行 过 程 中 EBP 有 是 固定 的 ， pa 来 作为 访问 局 部 变量 和 函数 参数 的 基 址 。 
虽然 也 可 以 使 用 ESP， 但 在 苑 数 运 程 中 ，ESP 可 能 会 变化 ， 使 用 起 来 不 太 方 
fg o 


函数 清 尾 主要 包括 : 释放 栈 中 分 配 的 空间 ， 恢 复 EBP 寄 存 器 中 的 值 ， 最 后 把 控制 流 
交 由 调用 者 ; 


mov esp，ebp 
pop ebp 
ret 0 


序幕 和 清 尾 代码 片段 通常 被 反 汇 编 器 作为 函数 定义 的 检测 代码 。 


4.1 递归 


哆 数 的 序幕 和 清 尾 代 码 片 段 可 能 会 影响 到 递归 郊 数 的 性 能 。 
更 多 的 信息 请 查看 36.3 一 章 。 


栈 


栈 是 计算 机 科学 中 最 基本 的 一 种 数据 结构 。 


从 技术 上 讲 , 栈 只 是 在 x86 中 被 ESP 寄存 器 、X64 中 被 RSP 寄存 器 、 或 ARM 中 
被 SP 寄存 器 指向 的 一 块 程序 内 存 。 


在 x86 和 ARM Thumb 模 式 中 ， 访 问 栈 最 常用 的 指令 是 PUSH 和 POP ° PUSH 指令 
在 32 位 模式 下 ,会 将 ESP/RSP/SP 的 值 减 去 4( 在 64 位 系统 中 ,会 减 去 8), 然 后 将 它 唯一 
的 参数 写 入 到 ESP/RSP/SP 指向 的 内 存 地址 。 


POP 是 PUSH 的 逆向 操作 :从 SP 指向 的 内 存 地 址 中 获取 数据 ,然后 存 入 指定 的 参 
数 中 (一 般 为 寄存 器 ), 然后 将 栈 指针 加 4( 或 8)。 


在 栈 分 配 过 后 ， 栈 指针 指向 栈 底 。 PUSH 减少 栈 指 针 ; POP 指令 增加 栈 指针 。 栈 
底 实 际 上 是 栈 分 配 到 的 内 存 的 起 始 地 址 。 这 看 起 来 很 奇怪 ， 但 事实 就 是 这 样 。 


ARM 支持 递增 堆栈 和 递减 堆栈 。 


举 几 个 例子 : STMFD/LDMFD , STMED/LDMED 指令 是 用 来 处 理 递减 堆栈 的 (向 下 增 
长 ， 从 高 址 开始 向 低 址 增长 )。 STMFA/LDMFA , STMEA/LDMEA 指令 是 用 来 处 理 递 
增 堆 栈 的 (向 上 增长 ， 从 低 址 开始 向 高 址 增长 ) 。 


5.1 为 什么 栈 会 反 向 增长 ? 

从 直觉 上 来 说 ,我 们 会 认为 栈 像 其 它 数据 结构 一 样 ,是 向 高 地 址 正 向 增长 的 。 

栈 反 向 增长 是 有 历史 原因 的 。 在 计算 机 十 分 巨大 ， 需 要 占据 整个 房间 的 年 代 ， 人 们 
可 以 很 容易 的 把 内 存 分 为 两 部 分 ， 一 部 分 给 堆 ， 另 一 部 分 给 栈 。 当 然 ， 在 程序 运行 
期 间 ， 我 们 并 不 知道 堆栈 各 需要 多 大 的 空间 。 这 时 最 简单 的 解决 方法 可 能 是 : 
Start of heap Start of stack 


Heap — €—— Stack 


在 [RT74] 中 我 们 可 以 看 到 : 


映像 文件 的 用 户 核心 部 分 可 以 被 划分 为 三 个 逻辑 段 。 程 序 代码 段 在 虚拟 内 存 里 

从 0 位 置 开始 。 在 程序 运行 过 程 中 ,这 部 分 是 具有 写 保护 的 ,同一 程序 的 所 有 进程 
都 共享 代码 段 的 一 个 副本 。 在 诬 拟 内 存 地 址 中 ,程序 代码 段 开 始 的 8k 字 节 ， 是 

私有 的 的 可 写 数据 段 ,这 个 段 的 大 小 可 以 通过 系统 调用 来 扩大 。 从 虚拟 内 存 的 

高 位 地 址 开始 是 堆栈 段 ， 这 部 分 像 硬件 栈 指针 大 小 的 变动 一 样 ， 可 以 自动 的 向 

下 增长 。 
以 上 可 以 使 我 们 联想 到 : 一 些 学 生 在 一 个 笔记 本 中 号 两 门 课 的 笔记 : 将 第 一 门 课 的 
笔记 正常 写 下 ， 由 于 厌恶 ， 而 把 另 一 门 的 笔记 从 后 往 前 写 。 两 种 笔记 有 可 能 因 缺 少 
空间 ， 而 在 中 间 的 茶 处 相遇 。 


5.2 栈 可 以 用 来 做 什么 ? 
5.2.1 保存 函数 的 返回 地 址 


X86 


当 使 用 CALL 指令 去 调用 一 个 函数 时 ，CALL 后 面 一 条 指令 的 地 址 会 被 保存 到 栈 中 ， 
然后 使 用 无 条 件 跳 转 指令 跳 转 到 CALL 中 执行 。 
CALL 指令 等 价 于 PUSH address after call / JMP operand 这 对 指令 。 


RET 指令 从 栈 中 取出 一 个 值 并 转 跳 到 这 个 值 上 ， 这 等 价 
于 POP tmp / JMP tmp 指令 对 。 


栈 溢 出 是 很 容易 的 。 只 需要 执行 无 止 尽 的 递归 。 


void f() 


f(); 
) 


MSVC 2008 报 告 了 这 个 问题 : 


c:\tmp6>cl ss.cpp /Fass.asm 

Microsoft (R) 32-bit C/C++ Optimizing Compiler Version 15.00.210 
22.08 for 80x86 

Copyright (C) Microsoft Corporation. All rights reserved. 


ss.cpp 
c:\tmp6\ss.cpp(4) : warning C4717: 'f' : recursive on all contro 
l paths, function will cause ^ 

C runtime stack overflow 


… 但 它 还 是 生成 了 正确 的 代码 : 


?fQOYAXXZ PROC Sf 
; File c:\tmp6\ss.cpp 


; Line 2 
push ebp 
mov ebp, esp 
; Line 3 
call ?fQQYAXXZ > 
; Line 4 
pop ebp 
ret 0 
?fQQYAXXZ ENDP zu 


.… 如 果 我 们 设置 优化 标识 ( /0x ), 优 化 过 的 代码 将 不 会 出 现 栈 溢出 ,并 且 会 正确 的 运 
行 的 。 (此 处 为 反讽) 


?fQQYAXXZ PROC sechs 
; File c:\tmp6\ss.cpp 
; Line 2 
$LL3QF : 
; Line 3 
jmp SHORT $LL3Qf 
?F@@YAXXZ ENDP E 


GCC 4.4.1 在 这 两 种 条 件 下 ,会 生成 同样 的 代码 ,并 且 不 会 有 任何 警告 。 


ARM 


ARM 程 序 员 也 使 用 栈 来 保存 返回 地 址 ,但 稍 有 不 同 。 正 如 我 们 在 “Hello,World!(3.4) 里 
提 到 过 的 ，RA 被 保存 在 LR (链接 寄存 器 ) 中 。 然 而 ,如 果 有 时 需要 调用 另外 一 个 函 
数 ,并 且 要 多 次 使 用 LR 寄存 器 , 它 的 值 必 须 被 保存 起 来 。 通 常 它 会 在 被 保存 到 函数 
的 开头 。 像 我 们 经 常 看 到 的 指令 PUSH R4-R7, LR ,与 在 元 数 结尾 处 的 指 

令 POP R4-R7，PC ,在 函数 中 使 用 到 的 寄存 器 的 值 ， 包 括 LR ， 会 被 保存 到 栈 

中 。 


然而 ,如 果 一 个 函数 从 未 调用 其 它 函 数 , 它 在 RISC 术语 中 被 叫 作 叶 子 函 数 。 因 此 , 叶 
子 函 数 不 需 要 保存 LR 寄存 器 (因为 他 们 并 不 修改 它 )。 如 果 这 样 的 函数 很 小 ， 并 只 
使 用 了 少量 的 寄存 器 , 它 可 能 完全 不 需要 用 到 栈 。 因 此 ,可 以 不 使 用 栈 而 调用 叶子 函 
数 。 这 样 做 比 在 老 x86 机 器 上 运行 要 快 ， 因 为 不 需要 为 栈 留 出 额外 的 内 存 。 在 留 给 
栈 的 内 存 尚未 分 配 或 不 可 用 的 情况 下 ,这 种 方式 是 非常 有 用 的 。 


一 些 叶 子 函 数 的 例子 : 8.3.2, 8.3.3, 19.17 , 19.33, 19.5.4 , 15.4 , 15.2 , 17.3 ° 
5.2.2 传递 函数 参数 


在 X86 中 ,最 常见 的 传 参 方式 是 cdecl : 


push arg3 

push arg2 

push argi 

call f 

add esp, 12 ; 4*3=12 


被 调用 函数 通过 栈 指针 得 到 参数 。 


此 ,以 下 就 是 在 函数 f() 的 第 一 条 指令 执行 之 前 ， 栈 中 参数 的 值 是 如 何 排列 的 。 


ESP+4 argument#1, marked in IDA as arg_0 


ESP+8 argument#2, marked in IDA as arg 4 
ESP+0xC | argument#3, marked in IDA as arg. 8 





关于 对 调用 约定 参见 (64) 。 值得 注意 的 是 ， 没 有 任何 东西 强迫 程序 员 一定 要 使 用 栈 
来 传递 参数 。 这 并 不 是 必需 的 ,一 个 程序 员 完全 可 以 不 使 用 栈 ,而 通过 其 它 方式 来 实 
现 参 数 传递 。 


例如 ,可 以 为 参数 分 配 一 部 PREN, 存 入 参数 ,然后 通过 EAX 寄存 器 里 指向 这 个 块 
的 指针 ， 将 参数 传递 给 函数 。 这 样 是 可 行 的 。 然 而 ,在 X86 和 ARM 中 ,使 用 栈 传递 参 
数 还 是 更 加 方便 的 。 


另外 ,被 调 函 数 并 不 知道 有 多 少 参数 被 传递 进来 。C 语 言 中 有 些 函数 可 以 传递 不 同 个 
数 的 参数 (如 : printf() ), 他 们 一 般 通 过 使 用 格式 字符 串 ( 以 % 开始 ) 来 判断 参数 个 
数 o 


如 果 我 们 可 以 这 样 些 : printf("9d 96d %d", 1234); 
printf() 会 输出 入 1234, 然 后 另外 输出 和 栈 相 邻 的 ,两 个 另外 的 随机 数字 。 
这 就 是 为 什么 我 们 如 何 声明 main() SZ ER $ X8, 


像 main() , main(int argc, char *argv[]) 或 main(int argc, char *argv 


X X E, CRT 模式 大 致 是 这 样 调 用 main() 函 数 的 : 


push envp 
push argv 
push argc 
call main 


即使 你 将 main() 声明 为 不 带 参 数 的 main() 元 数 。 它 们 仍然 在 栈 中 ,只 是 没 被 使 用 。 
如 果 你 将 main() 声明 为 main(int argc, char *argv[]) ,你 就 可 以 使 用 前 两 
个 参数 ,并 且 第 三 个 参数 在 你 的 函数 仍然 是 "不 可 见 的 "。 还 有 ， 如 果 你 声明 

为 main(int argc) 这 样 , 它 同 样 是 可 以 正常 运行 的 。 


5.2.3 存放 局 部 变量 


一 个 函数 可 以 在 栈 中 分 配 空间 ， 用 于 储存 局 部 变量 。 这 只 需要 将 栈 指针 向 栈 底 增 
加 。 因 此 ， 无 论 你 需要 定义 多 少 局 部 变量 ， 这 样 都 很 快 。 


在 栈 中 存放 局 部 变量 并 不 是 一 个 硬性 的 要 求 。 你 可 以 将 局 部 变量 存 到 任何 你 想 存 的 
地 方 ,但 从 传统 上 来 说 ,大 家 更 喜欢 这 样 做 。 


5.2.4 x86: alloca() :&2& 


这 里 值得 注意 的 是 alloca() dk o KBRNEAARMF malloc() ,但 它 会 直接 
在 栈 上 分 配 内 存 。 


它 分 配 的 内 存 块 ， 并 不 需要 调用 像 free() 这 样 的 函数 来 释放 (4)。 当 函数 运行 结 
R, ESP 的 值 还 原 时 ,这 部 分 内 存 会 自动 释放 。 


值得 注意 的 是 alloca() 函数 的 实现 。 简 而 言 之 ,这 个 函数 就 是 根据 你 所 需要 的 内 
存 大 小 ， 将 ESP 指针 指向 栈 底 移 位 ,然后 将 ESP 指向 所 分 配 的 内 存 块 。 


让 我 们 试 一 下 : 


#ifdef _ GNUC . 

#include <alloca.h> // GCC 
#else 

#include <malloc.h> // MSVC 
#endif 

#include <stdio.h> 


void f() 


char *bufz(char*)alloca (600); 
#ifdef | GNUC _ 

snprintf (buf, 600, "hi! %d, %d, %d\n", 1, 2, 3); // GCC 
#else 

_snprintf (buf, 600, "hi! %d, %d, %d\n", 1, 2, 3); // MSVC 
Zendif 


puts (buf); 


 snprintf() 函数 作用 与 printf() XXX 8B FA HHA HE printf() 会 
将 结果 输出 到 的 标准 输出 中 (例如 : 终端 和 控制 台 )，_snprintf() 会 将 结果 保存 到 
缓冲 区 中 ，puts() 会 将 缓冲 区 的 内 容 复制 到 标准 输出 。 当 然 ， 后 面 两 行 代码 可 以 


使 只 用 一 个 printf() 调用 替换 ,但 我 们 必须 说 明 小 给 冲 区 的 用 途 。 


MSVC 


让 我 们 来 编译 (MSVC 2010): 
代码 清单 5.1: MSVC 2010 


mov eax, 600 ; 00000258H 
call alloca_probe_16 

mov esi, esp 

push 3 

push 2 

push 1 

push OFFSET $SG2672 

push 600 ; 00000258H 
push esi 

call |  snprintf 


push esi 
call puts 
add esp, 28 ; 0000001CcH 


alloca() 的 唯一 一 个 参数 通过 EAX 来 传递 (而 不 是 把 他 压 入 栈 )。 在 函数 调用 结 
束 时 ，ESP 会 指向 600 字 节 的 内 存 , 我 们 可 以 像 使 用 缓冲 区 数组 一 样 来 使 用 它 。 


GCC + Inteli 
GCC 4.4.1 不 需要 调用 额外 的 函数 ， 就 可 以 实现 相同 的 功能 : 
代码 清单 5.2: GCC 4.7.3 


.LCO: 
.string "hi! 96d, 96d, %d\n" 


o: 

push ebp 

mov ebp, esp 

push ebx 

sub esp, 660 

lea ebx, [esp+39] 

and ebx, -16 ; align poi 
nter by 16-bit border 

mov DWORD PTR [esp], ebx HS 

mov DWORD PTR [esp-*20], 3 

mov DWORD PTR [esp-*16], 2 

mov DWORD PTR [esp-*12], 1 

mov DWORD PTR [esp-*8], OFFSET FLAT:.LCO ; "hi! 96d, 96 
d, %d\n" 

mov DWORD PTR [esp+4], 600 ; maxlen 

call _snprintf 

mov DWORD PTR [esp], ebx ES 

call puts 

mov ebx, DWORD PTR [ebp-4] 

leave 

ret 


GCC + AT&T 语法 


我 们 来 看 看 使 用 了 AT&T 语 法 的 相同 的 代码 : 
代码 清单 5.3: GCC 4.7.3 


.LCO0: 
.string "hi! 96d, 96d, %d\n" 


pushl %ebp 

movl %esp, %ebp 
pushl %ebx 

subl $660, %esp 
leal 39(%esp), %ebx 
andl $-16, %ebx 
movl %ebx, (%esp) 
movl $3, 20(%esp) 
movl $2, 16(%esp) 
movl $1, 12(%esp) 
movl $.LCO, 8(%esp) 
movl $600, 4(%esp) 


call _snprintf 

movl %ebx, (%esp) 
call puts 

movl -4(%ebp), %ebx 
leave 

ret 


这 里 的 代码 与 上 面 的 那个 代码 清单 是 相同 的 。 
另外 :在 Intel 语 法 中 ， movl $3, 20(%esp) 与 mov DWORD PTR [esp + 20],3 X 


等 价 的 。 在 AT&T 语 法 中 ，register+offset 形 式 的 内 存 地 址 表示 
A: offset(%register) 。 


5.2.5 (Windows) 结构 化 异常 处 理 (SEH) 

(如 果 存 在 ) SEH 记录 也 是 存放 在 栈 中 的 。 想 了 解 更 多 ， 参 看 (68.3) 。 

5.2.6 缓冲 区 溢出 保护 

想 了 解 更 多 ， 参 看 (18.2)。 

5.2.7 栈 内 数据 的 自动 回收 

也 许 把 临时 变量 和 SHE 记录 存在 栈 中 ， 是 因为 他 们 会 在 函数 的 结尾 会 被 自动 的 释 


放 ， 而 且 只 需要 用 一 条 指令 就 能 还 原 栈 指 针 ( 通 常 是 ADD )。 函 数 的 参数 也 会 在 函数 
的 结尾 被 释放 。 相 对 的 ， 储 存在 堆 中 的 任何 东西 都 必须 被 明确 的 释放 。 


5.3 典型 的 堆栈 布局 


以 下 是 32 位 的 环境 中 ， 第 一 个 函数 开始 执行 前 ， 栈 典型 的 布局 : 
m — [m 1 
(ESP8 | local variable #1, marked in IDA as var. 4 . 
"ESP | retum address —— 


, i 0 
ESP+8 argument#2, marked in IDA as arg_4 
ESP+0xC | argument#3, marked in IDA as arg. .8 


5.4 HA ae 


在 这 本 书 里 ， 我 们 经 常 提 到 栈 中 的 "噪声 " 值 和 内 存 中 的 "垃圾 " 值 ， 他 们 从 哪里 来 ? 
他 们 通常 是 上 一 个 函数 执行 完 而 留 下 的 值 。 简 短 的 例子 : 





Zinclude «stdio.h» 


void f1() 
{ 
int a=1, b=2, c=3; 
3 
void f2() 
niea bc 
printf ("%d, 96d, %d\n", a, b, c); 
3 
int main() 
f1(); 
f2(); 
3 
编译 后 : 


代码 清单 5.4: 无 优化 的 MSVC 2010 


$SG2752 DB 


Des 

_b$ -8 

_a$ -4 

et PROC 
push 
mov 
sub 
mov 
mov 
mov 
mov 
pop 
ret 

Ira ENDP 


-12 


-12 

-8 

A -4 

Z2 PROC 
push 
mov 
sub 
mov 
push 
mov 
push 
mov 
push 
push 
call 
add 
mov 
pop 
ret 

_f2 ENDP 


o 
fA 
HoH d 


main PROC 
push 
mov 
call 
call 
xor 
pop 
ret 

. main ENDP 


编译 器 会 有 一 些小 她 


'&d, Xd, %d', OaH, OOH 


; size = 4 


; size = 4 
; size = 4 
ebp 
ebp, esp 
esp, 12 


DWORD PTR _a$[ebp], 1 
DWORD PTR _b$[ebp], 2 
DWORD PTR _c$[ebp], 3 
esp, ebp 

ebp 


ebp, esp 
esp, 12 
eax, DWORD PTR _c$[ebp] 


ecx, DWORD PTR _b$[ebp] 


edx, DWORD PTR _a$[ebp] 
edx 


OFFSET $SG2752 ; '%d, %d, %d' 


DWORD PTR __imp__ printf 
esp, 16 
esp, ebp 
ebp 
0 


ebp, esp 


eax, eax 


c:\Polygon\c>cl st.c /Fast.asm /MD 

Microsoft (R) 32-bit C/C++ Optimizing Compiler Version 16.00.402 
19.01 for 80x86 

Copyright (C) Microsoft Corporation. All rights reserved. 


Suc 

c:\polygon\c\st.c(11) : warning C4700: uninitialized local varia 
ble 'c' used 

c:\polygon\c\st.c(11) : warning C4700: uninitialized local varia 
ble 'b' used 

c:\polygon\c\st.c(11) : warning C4700: uninitialized local varia 
ble 'a' used 

Microsoft (R) Incremental Linker Version 10.00.40219.01 
Copyright (C) Microsoft Corporation. All rights reserved. 


/out:st.exe 
st.obj 


但 当 我 们 运行 编译 好 的 程序 时 : 


c:\Polygon\c>st 
ilp 2; 8 


啊 ! 这 太 奇 怪 了 ! 在 f2() Bo RÄ AA AIETE ERA o RAY 4845 8 
在 栈 里 。 


让 我 们 在 OllyDbg 里 加 载 这 个 例子 : 


Ele View Debug Trace C05: Qptions Windows Help 


CPU - main thread, module st 
IINE: 


PUSH EBF 

HOU EBP,ESP 
S3EC OC SUB ESP, OC 
C745 FC 1901 HOU DUDRD PTR SS:CLOCAL. 13, 
C745 FS 6268I HOU DWORD PTR SS:[LOCRL.Z 
C745 F4 83800 NOU DUORD PTR SS: C(LOCAL.3 
SEES 


THOU ESP, 
POP EBP 
RETH 


3,1 
3,2 
33 
cs INT3 ED aoa 
PUSH EBP EIP O12C101B st.012CI01B 
HOU EBP,ESP © ES 0028 32b 
SUB ESP, C e 002e 32 
HOU ERX.DUORD PTR SS: [LOCAL.3) 
PUSH ER 








Err 606000000 ERROR SUCCESS 
HO, HB, HE, A, HS, PO, GE, G 


00 o0 
eo ae 
00 
O 00 66 GO 
oo 


) 
Y 

is RETURN from st. O12C 

Rẹ, O| RETURN from st. 012C 

j bd 


19 86 66 00| 0O 0O 





图 5.1: OllyDbg: f1() 
当 f1() 分 配 变量 a、b 和 c 时 ， 他 们 的 值 被 存 到 9x1FF869 等 几 个 地 址 里 。 


Co 


Nw 
Pasaz 


然后 当 f2() 执行 的 时 候 : 


Ele View Du Trace Busing -Qotons Windows Help 






PUSH EBP 
HOU EBP,ESP 
* S3EC OC SUB ESP, 0C 
C745 FC 6l68l HOU DWORD DIR SREL 
* C745 FS 8288I HOU DWORD P 
SEs ESP, 
POP 3 sd 
PE IH 
PUSH EBP 
HOU EBP,ESP 
SUB ESP,BC 
MOU EAX, DWORD PTR SS: [LOCRL .3] 
^ii EAX " T 
DIO 








r 660000000 ERROR SUCCESS 
HO, HB, HE, A, HS, PO, GE, G 


68 Be 


a 86 88 0A & e T 
oo DO , 3| o - ^ pt 
üB B8 08 O0 6 3 G12c1e d RETURN from st, O012C 


66 00 68 00 00 Gà 
66 ao 66 GB OO GO BB BB GO 
00 00 00 60 66 86) 66 OO 


1 
Rẹ, O| RETURN from st, 012C 
kd 





图 5.2: OllyDbg: f2() 


f2() 中 的 a、b 和 c 分 到 了 相同 的 地 址 ! 并 且 没 有 一 个 值 被 覆盖 了 ， 到 目前 为 目 
他 们 的 值 未 受 影响 。 


为 了 让 这 中 情况 发 生 ， 一 定 有 几 个 函数 被 依次 调用 ， 并 且 在 每 个 函数 分 支 中 SP 都 
有 相同 的 值 (例如 ， 他 们 都 有 相同 的 参数 )。 然 后 这 些 临 时 变量 就 会 被 分 配 到 栈 中 相 
E 854 & bo 


总 的 来 说 ， 栈 中 (和 内 存 中 ) 所 有 的 值 中 总 有 几 个 ， 是 先前 的 函数 执行 后 留 下 的 。 严 
格 的 来 说 他 们 并 不 是 随机 的 ， 但 是 他 们 的 值 是 不 可 预测 的 。 


还 有 其 他 可 能 吗 ? 也 许可 以 在 每 个 函数 执行 完 后 ， 清 除 栈 中 一 部 分 的 值 ， 但 这 会 产 
生 很 多 额外 的 (而 且 没 必要 的 ) 工 作 e 
5.4.1 MSVC 2013 


这 个 例子 是 在 MSVC 2010 里 编译 的 。 但 有 些 读者 会 尝试 在 MSVC 2013 里 编译 、 运 
行 它 。 然 后 会 得 到 三 个 数字 颠倒 后 的 结果 : 


c:\Polygon\c>st 
S el 


为 什么 ? 
我 也 在 MSVC 2013 中 编译 了 这 个 程序 : 
代码 清单 5.5: MSVC 2013 


49 


a$ = -12 ; size = 4 
_b$ = -8 ; size = 4 
c$ = -4 2 Sze 4 
_f2 PROC 
f2 ENDP 
_c$ = -12 ; size = 4 
b$ = -8 ; size = 4 
_a$ = -4 ; size = 4 
f1 PROC 
_f1 ENDP 


T4 MSVC 2010 ， 在 MSVC 20137 f2() 中 的 变量 a/b/c 会 被 以 相反 的 顺序 分 
配 空 间 。 但 这 样 做 是 完全 正确 的 ， 因 为 C/C++ 标准 里 并 没有 规定 要 以 何 种 顺序 来 分 
配 栈 中 的 变量 。 产 生 这 个 区 别 的 原因 是 : MSVC 2010 有 他 自己 的 分 配 变量 的 方式 ， 
而 在 MSVC 2013 中 ， 可 能 有 什么 事 改 变 了 编译 器 内 在 的 东西 ， 所 以 结果 稍 有 区 别 。 


5.5 Exercises 


e http://challenges.re/51 
e http://challenges.re/52 


x 


第 六 章 


printf() 与 参数 处 理 
现在 让 我 们 扩展 "hello, world"(2) 中 的 示例 ， 将 其 中 main() 驾 数 中 printf 的 部 分 将 换 成 
这 样 

#include «stdio.h» 

int main() 


printf("a=%d; b=%d; c=%d", 1, 2, 3); 
return 0; 


HH 


6.1 x86 
6.1.1 x86: 3 个 参数 


MSVC 


在 我 们 用 MSVC 2010 Express 编 译 后 可 以 看 到 : 


$SG3830 DB 'a-*d; b=%d; c=%d’, OOH 


push 3 

push 2 

push 1 

push OFFSET $SG3830 

call _printf 

add esp, 16 ; 00000010H 


这 和 之 前 的 代码 几乎 一 样 ， 但 是 我 们 现在 可 以 看 到 printf() 的 参数 被 反 序 压 入 了 覆 
中 。 第 一 个 参数 被 最 后 压 入 。 


另外 ， 在 32bit 的 环境 下 int 类 型 变量 占 4 bytes。 

那么 ， 这 里 有 4 个 参数 4*4=16 恰好 在 栈 中 占据 了 16bytes : 一 个 32bit 字 符 串 指 
针 ， 和 3 个 int 类 型 变量 。 

当 函 数 执 行 完 后 ， 执 行 "ADD ESP, X" 指令 恢复 栈 指针 寄存 器 (ESP 寄存 器 )。 通 常 
可 以 在 这 里 推断 函数 参数 的 个 数 : 用 X 除 以 4。 





当然 ， 这 只 涉及 cdecl 函数 调用 方式 。 
也 可 以 在 最 后 一 个 函数 调用 后 ， 把 几 个 ADD ESP, X 指令 合并 成 一 个 。 


push al 
push a2 
Ca 
push ai 
Calli: 
push ai 
push a2 
push a3 


call 
add esp, 24 


MSVC 5 ollyDbg 


BRN FO > WALES MSVOR* dll > ABZ A 就 可 以 在 debugger 中 消 oo 
看 到 调用 的 函数 。 


在 OllyDbg 中 载 入 程序 ， 最 开始 的 断 点 在 ntdll.dll 中 ， 接 着 按 F9(run)， 然 后 第 二 个 断 
点 在 CRT-code 中 。 现 在 我 们 来 找 main() 函 数 。 

往 下 滚动 屏幕 ， 找 到 下 图 这 段 代 码 (MSVC 把 main() 函 数 分 配 在 代码 段 开始 处 ) LA 
5.3 


点 击 PUSH EBP 指令 ， 按 下 F2( 设 置 断 点 ) 然 后 按 下 F9(run), 通 过 这 些 操 作 来 跳 过 
CRT-code ° 因为 我 们 现在 还 ‘不必 关注 这 部 分 


按 6 次 F8(step over)。 见 图 5.4 现在 EIP 指向 了 CALL printf 的 指令 。 和 其 他 调试 器 一 
样 ，OllyDbg 高 亮 了 有 人 和 值 改变 的 寄存 器 。 所 以 每 次 你 按 下 F8,EIP 都 在 改变 然后 它 看 
起 来 便 是 红色 的 。ESP 同 时 也 在 改变 ， 因 为 它 是 指向 栈 的 


栈 中 的 数据 又 在 哪 ? 那么 看 一 下 调试 器 右 下 方 的 窗口 : 
















































Ad 





aasiFE48| &D8S48584|HnsuCcRi18.6D849584 
BaasiFE44| Do3lFEBS 
BasiFE4S8| 81281127] 1.81281127 
BBS1FE4C a12851« ; OFFSET 1.ar" 
ARS Cp Al2oocC1de S 
WSIFES AML 
aasiFESS 85563661 
3831FESC| aaaaaaa2 


RN 
^. 
pt 





图 6.1 


然后 我 们 可 以 看 到 有 三 列 ， 栈 的 地 址 ， 元 组 数据 ， 以 及 一 些 OllyDbg 的 注释 ， 
OllyjDbg 可 以 识别 像 printf() 这 样 的 字符 事 ， 以 及 后 面 的 三 个 值 。 


右 击 选中 字符 串 ， 然 后 点 击 "follow in dump”, 然 后 字符 串 就 会 出 现在 左 侧 显示 内 存 数 
据 的 地 方 ， 这 些 内 存 的 数据 可 以 被 编辑 。 我 们 可 以 修改 这 些 字符 串 ， 之 后 这 个 例子 
的 结果 就 会 变 的 不 同 ， 现 在 可 能 并 不 是 很 实用 。 但 是 作为 练习 却 非常 好 ， 可 以 体会 
每 部 分 是 如 何 工 作 的 。 
再 按 一 次 F8(step over) 


然后 我 们 就 可 以 看 到 输出 


EN C:\Polygon\ollydbg\1.exe 


; Ure, 72m 





图 6.2 4.fTprintf() 2 žr 
让 我 们 看 看 寄存 器 和 栈 是 怎样 变化 的 见 图 5.5 
EAX 寄存 器 现在 是 0xD(13). 这 是 正确 的 ，printf() 返 回 打 印 的 字符 ，EIP 也 变 了 一 一 


事实 上 现在 指向 CALL printf 之 后 下 一 条 指令 的 地 址 .ECX 和 EDX 的 值 也 改变 了 。 显 
然 ，printf() 函 数 的 内 部 机 制 对 它们 进行 了 使 用 。 


很 重要 的 一 点 ESP 的 值 并 没有 发 生变 化 ， 栈 的 状态 也 是 ! 我 们 可 以 清楚 地 看 到 字符 
串 和 相应 的 3 个 值 还 是 在 那里 ， 实 际 上 这 就 是 cdecl 调 用 方式 。 被 调用 的 函数 并 不 清 
楚 栈 中 参数 ， 因 为 这 是 调用 体 的 任务 。 

再 按 一 下 F8 执 行 ADD ESP, 0 见 图 5.6 

ESP 改 变 了 ， 但 是 值 还 是 在 栈 中 ! 当然 没有 必要 用 0 或 者 别 的 数据 填充 这 些 值 。 
因为 在 栈 指针 寄存 器 之 上 的 数据 都 是 无 用 的 。 


printf() 与 参数 处 理 
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printf() 与 参数 处 理 
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图 6.6 OllyDbg ADD ES 


GCC 


sep 


现在 我 们 将 同样 的 程序 在 linux 下 用 GCC4.4.1 编 译 后 放 入 IDA 看 
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main proc near 


var 10 = dword ptr -10h 

var C = dword ptr -OCh 

var 8 - dword ptr -8 

var 4 - dword ptr -4 
push ebp 
mov ebp, esp 
and esp, OFFFFFFFOh 
sub esp, 10h 
mov eax, offset aADBDCD ; "a=%d; b=%d; c=%d" 
mov [esp+10h+var_4], 3 
mov [esp+10h+var_8], 2 
mov [esp*10h-var C], 1 
mov [esp*10h-var 10], eax 
call _printf 
mov eax, 0 
leave 
retn 

main endp 


MSVC 与 GCC 编译 后 代码 的 不 同 点 只 是 参数 入 栈 的 方法 不 同 ， 这 里 GCC 不 用 
PUSH/POP 而 是 直接 对 栈 操作 。 


GCC 与 GDB 
接着 我 们 尝试 在 linux 中 用 GDB 运 行 下 这 个 示例 程序 。 
-g 表示 将 debug 信 息 插入 可 执行 文件 中 
$ gcc 1.c -g -o 1 
BRE : 


$ gdb 1 

GNU gdb (GDB) 7.6.1-ubuntu 

Copyright (C) 2013 Free Software Foundation, Inc. 

License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licen 
ses/gpl.html- 

This is free software: you are free to change and redistribute i 
be 

There is NO WARRANTY, to the extent permitted by law. Type "show 
copying" 

and "show warranty" for details. 

This GDB was configured as "i686-linux-gnu". 

For bug reporting instructions, please see: 

«http: //www.gnu.org/software/gdb/bugs/»... 

Reading symbols from /home/dennis/polygon/1...done. 


表 6.1 在 printf() 处 设置 断 点 


(gdb) b printf 
Breakpoint 1 at 0x80482f0 


Run 这 里 没有 printf() 函 数 的 源码 ， 所 以 GDB 没 法 显示 出 源码 ， 但 是 却 可 以 这 样 做 


(gdb) run 
Starting program: /home/dennis/polygon/1 


Breakpoint 1, _ printf (format=0x80484f0 "a=%d; b=%d; c-9* d") at 
printf.c:29 
29 printf.c: No such file or directory. 


打印 10 组 栈 中 的 元 组 数据 ， 左 边 是 栈 中 的 地 址 


(gdb) x/10w $esp 

Oxbffff1iic: Ox0804844a 0x080484fO 0x00000001 0x00000002 
Oxbffff1i2c: 0x00000003 0x08048460 0x00000000 0x00000000 
Oxbffffi3c: Oxb7e29905 0x00000001 


最 开始 的 是 返回 地 址 (0x0804844a), 我 们 可 以 确定 在 这 里 ， 于 是 可 以 反 汇 编 这 里 的 
代码 


(gdb) x/5i 0x0804844a 

0x804844a <main+45>: mov $0x0,%eax 
0x804844f <main+50>: leave 
0x8048450 <main+51>: ret 
0x8048451: xchg %ax, %ax 

0x8048453: xchg %ax,%ax 


两 个 XCHG 指 令 ， 明 显 是 一 些 垃圾 数据 ,可 以 忽略 第 二 个 (0x080484f0) 是 一 处 格式 化 
字符 串 


(gdb) x/s 0x080484f0 
0x80484f0: "a=%d; b=%d; c=%d" 


RREAN Ee printf() BAA BA > AIPA T S8 A ER P MAE ^ ELT fe 
是 其 他 有 函数 的 数据 ， 例 如 它们 的 本 地 变量 。 这 里 可 以 忽略 。 执行 finish ， 表 示 执 行 
到 函数 结束 。 在 这 里 是 执行 到 printf() 完 。 


(gdb) finish 

Run till exit from #0 _ printf (format-0x80484f0 "a=%d; b=%d; c= 
%d") at printf.c:29 

main () at 1.c:6 

6 return 0; 

Value returned is $2 - 13 


GDB X. 7s T printf() & Zt /£ eax P sR » RAT IP FH AS > RAE OllyDbg Y 
一 样 。 


我 们 同样 看 到 了 return 0; 及 这 在 1.c 文 件 中 第 6 行 所 代表 的 含义 。1.c 文 件 就 在 当 
前 目录 下 ，GDB 就 在 那 找 到 了 字符 串 。 但 是 GDB 又 是 怎么 知道 当前 执行 到 了 哪 一 
行 ? 


事实 上 这 和 编译 器 有 关 ， 当 生成 调试 信息 时 ， 同 样 也 保存 了 一 张 代码 行 号 与 指令 地 
址 的 关系 表 。 


查看 EAX 中 储存 的 13: 


(gdb) info registers 


eax Oxd 13 

ecx 0x0 0 

edx 0x0 0 

ebx Oxb7fcoooQ -1208221696 

esp Oxbffff120 Oxbffff120 

ebp Oxbffff138 Oxbffff138 

esi 0x0 9 

edi 0x0 0 

eip 0x804844a 0x804844a <main+45> 


反 汇 编 当 前 的 指令 


(gdb) disas 
Dump of assembler code for function main: 


0x0804841d <+0>: push %ebp 
0x0804841e <+1>: mov %esp,%ebp 
0x08048420 <+3>: and SoxfffffffoO,9?esp 
0x08048423 <+6>: sub $0x10,96esp 
0x08048426 <+9>: movl $0x3, Oxc(%esp ) 
0x0804842e <+17>: movl $0x2, Ox8(%esp) 
0x08048436 <+25>: movl $0x1, 0x4(%esp) 
0x0804843e <+33>: movl $0x80484f0, (%esp) 
0x08048445 <+40>: call 0x80482f0 <printf@plt> 
=>  0x0804844a <+45>: mov $0x0,96eax 
0x0804844f «4-50»: leave 


0x08048450 <+51>: ret 
End of assembler dump. 


GDB 上 默认 使 用 AT&T 语 法 显示 ， 当 然 也 可 以 转换 至 intel: 


(gdb) set disassembly-flavor intel 
(gdb) disas 
Dump of assembler code for function main: 


0x0804841d <+0>: push ebp 
0x0804841e <+1>: mov ebp, esp 
0x08048420 <+3>: and esp, OxfffffffO 
0x08048423 <+6>: Sub esp, 0x10 
0x08048426 <+9>: mov DWORD PTR [esp-*0xc], 0x3 
0x0804842e <+17>: mov DWORD PTR [esp-*0x8],0x2 
0x08048436 <+25>: mov DWORD PTR [esp+0x4], 0x1 
0x0804843e <+33>: mov DWORD PTR [esp], 0x80484f0 
0x08048445 <+40>: call 0x80482f0 <printf@plt> 

=> 0x0804844a <+45>: mov eax, 0x0 


0x0804844f <+50>: leave 
0x08048450 <+51>: ret 
End of assembler dump. 


(gdb) step 
7 }; 


在 执行 完 MOV EAX, 0 后 我 们 可 以 看 到 EAX 就 已 经 变 为 0 了 。 


(gdb) info registers 

eax 0x0 O 

ecx 0x0 O 

edx 0x0 0 

ebx 0xb7fc0000 -1208221696 

esp Oxbffff120 Oxbffff120 

ebp Oxbffff138 Oxbffff138 

esi 0x0 0 

edi 0x0 0 

eip 0x804844f 0x804844f <main+50> 


6.1.2 x64: 8 个 参数 


为 了 看 其 他 参数 如 何 通过 栈 传递 的 ， 我 们 再 次 修改 代码 将 参数 个 数 增加 到 9 个 
(printf() 格 式 化 字符 串 和 8 个 int 变量 ) 


#include <stdio.h> 
int main() { 

printf("a=%d; b=%d; c=%d; d=%d; e=%d; f=%d; g=%d; h=%d 
", 1, 2, 3, 4, 5, 6, 7, 8); 

return 0; 


ur 


MSVC 


正如 我 们 之 前 所 见 ， 在 win64 下 开始 的 4 个 参数 传递 至 RCX，RDX ? Ra» ROS 


as ^ 


然而 MOV 指 令 ， 替 代 PUSH 指 令 。 用 来 准备 栈 数 据 ， 所 以 值 都 是 直接 写 入 栈 中 


$SG2923 DB ‘a=%d; b=%d; c=%d; d=%d; e=%d; f=%d; g=%d; h=%d’, OaH 
, OOH 


main PROC 


sub rsp, 88 

mov DWORD PTR [rsp-*64], 8 
mov DWORD PTR [rsp-*56], 7 
mov DWORD PTR [rsp+48], 6 
mov DWORD PTR [rsp+40], 5 
mov DWORD PTR [rsp-*32], 4 
mov rod, 3 

mov rad, 2 

mov edx, 1 

lea rcx, OFFSET FLAT:$SG2923 


call printf 


; return O 
xor eax, eax 


add rsp, 88 
ret 0 

main ENDP 

_TEXT ENDS 


END 


#6.2 : msvc 2010 x64 


GCC 


在 *NIX 系 统 ， 对 于 x86-64 这 也 是 同样 的 原理 ， 除 了 前 6 个 参数 传递 给 了 RDI，RSI， 
RDX，RCX，R8，R9 和 寄存 器 。GCC 将 生成 的 代码 字符 指针 写 入 了 EDI 而 不 是 
RDI( 如 果 有 的 话 ) 一 一 我 们 在 2.2.2 节 看 到 过 这 部 分 





同样 我 们 也 看 到 在 寄存 器 EAX 被 清 零 前 有 个 printf() call: 


.LCO0: 

.string "a=%d; b=%d; c=%d; d=%d; e=%d; f-96d; g=%d; h=%d 
main: 

sub rsp, 40 

mov rod, 5 

mov rad, 4 

mov ecx, 3 

mov edx, 2 

mov esi, 1 

mov edi, OFFSET FLAT:.LCO 

xor eax, eax ; number of vector registers passed 

mov DWORD PTR [rsp-*16], 8 

mov DWORD PTR [rsp-*8], 7 

mov DWORD PTR [rsp], 6 


call printf 


; return 0 


xor eax, eax 
add rsp, 40 
ret 


1 6.3:GCC 4.4.6 —o 3 x64 


GCC * GDB 

让 我 们 在 GDB 中 尝试 这 个 例子 。 
POCC -g 2- C 02 

反 编 译 : 


$ gdb 2 

GNU gdb (GDB) 7.6.1-ubuntu 

Copyright (C) 2013 Free Software Foundation, Inc. 

License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licen 
ses/gpl.html- 

This is free software: you are free to change and redistribute i 
pr 

There is NO WARRANTY, to the extent permitted by law. Type "show 
copying" 

and "show warranty" for details. 

This GDB was configured as "x86 64-linux-gnu". 

For bug reporting instructions, please see: 

«http: //www.gnu.org/software/gdb/bugs/»... 

Reading symbols from /home/dennis/polygon/2...done. 


表 5.4: 在 printf() 处 下 断 点 ， 然 后 run 


(gdb) b printf 

Breakpoint 1 at 0x400410 

(gdb) run 

Starting program: /home/dennis/polygon/2 

Breakpoint 1, _ printf (format=0x400628 "a=%d; b=%d; c=%d; d=%d; 
e=%d; f=%d; g=%d; h=%d 

2) at 

printf.c:29 

29 printf.c: No such file or directory. 


寄存 器 RSIURDXI/RCX/R8/R9 都 有 应 有 的 值 ，RIP 则 是 printf() 函 数 地 址 


(gdb) info registers 


rax 0x0 0 

rox 0x0 0 

rcx 0x3 3 

rdx 0x2 2 

rsi 0x1 1 

rdi 0x400628 4195880 

rbp Oxvfffffffdfoo oxvfffffffdf60 
rsp Oxvfffffffdf38 OxTfffffffdf38 
r8 0x4 4 

r9 0x5 5 

r10 Ox7fffffffdce0 140737488346336 
rit 0x7ffff7a65f60 140737348263776 
r12 0x400440 4195392 

r13 OxTfffffffeOo40 140737488347200 
r14 Oxo 9 


r15 0x0 0 
rip 0x7ffff7a65f60 Ox7ffff7a65f60 <__printf> 


表 5.5 检查 格式 化 字符 串 


(gdb) x/s $rdi 
0x400628: "a=%d; b=%d; c=%d; d=%d; e=%d; f=%d; g=%d; h=%d 


用 X/g 命 令 显 示 栈 内 容 


(gdb) x/10g $rsp 

Ox7fffffffdf38: 0x0000000000400576 0x0000000000000006 
Ox7fffffffdf48: 0x0000000000000007 0x00007fff00000008 
Ox7fffffffdf58: 0x0000000000000000 0x0000000000000000 
Ox7fffffffdf68: 0x00007ffff7a33de5 0x0000000000000000 
ox7fffffffdf78: 0x00007fffffffeO048 0x0000000100000000 


与 之 前 一 样 ， 第 一 个 栈 元 素 是 返回 地 址 ， 我 们 也 同时 也 看 到 在 高 32 位 的 8 也 没有 被 
清除 。0x00007ff00000008， 这 是 因为 是 32 位 int 类 型 的 ， 因 此 ， 高 寄存 器 或 堆栈 
部 分 可 能 包含 一 些 随 机 垃圾 数值 。 


printf() 欧 数 执行 之 后 将 返回 控制 ，GDB 会 显示 整个 main() 部 数 。 
(gdb) set disassembly-flavor intel 


(gdb) disas 0x0000000000400576 
Dump of assembler code for function main: 


0x000000000040052d <+0>: push rbp 

0x000000000040052e <+1>: mov rbp,rsp 
0x0000000000400531 <+4>: sub rsp, 0x20 
0x0000000000400535 «48»: mov DWORD PTR [rsp+0x10], 0x8 
0x000000000040053d <+16>: mov DWORD PTR [rsp-*0x8],0x7 
0x0000000000400545 <+24>: mov DWORD PTR [rsp],0x6 
0x000000000040054C <+31>: mov r9d, 0x5 
0x0000000000400552 <+37>: mov r8d, 0x4 
0x0000000000400558 <+43>: mov ecx, Ox3 
0x000000000040055d <+48>: mov edx, 0x2 
0x0000000000400562 <+53>: mov esi,0x1 
0x0000000000400567 <+58>: mov edi,0x400628 
0x000000000040056c <+63>: mov eax, 0x0 
0x0000000000400571 <+68>: call 0x400410 <printf@plt> 
0x0000000000400576 <+73>: mov eax, 0x0 


0x000000000040057b <+78>: leave 
0x000000000040057C <+79>: ret 
End of assembler dump. 


ap 


行 完 printf() 后 ， 就 会 清 零 EAX， 然 后 发 现 EAX 早 已 为 0，RIP 现 在 则 指向 LEAVE 指 


(gdb) finish 

Run till exit from #0 _ printf (format-0x400628 "a=%d; b=%d; c=% 
d; d=%d; e=%d; f=%d; g=%d; h=%d 

n") at printf.c:29 

a-1; b=2; c-3; d-4; e=5; f-6; g-7; h=8 

main () at 2.c:6 


6 return 0; 
Value returned is $1 - 39 
(gdb) next 
7j; 
(gdb) info registers 
rax 0x0 0 
rbx 0x0 0 
rcx 0x26 38 
rdx Ox7FFFF7dd59FO 140737351866864 
rsi Ox7fffffd9 2147483609 
rdi 0x0 0 
rbp Ox7fffffffdfeo Ox7fffffffdf60 
rsp Ox7fffffffdfao Ox7fffffffdf40 
r8 Ox7ffff7dd26a0 140737351853728 
r9 Ox7ffff7a60134 140737348239668 
r10 Ox7fffffffd5b0 140737488344496 
r11 Ox7ffff7a95900 140737348458752 
r12 0x400440 4195392 
r13 Ox7fffffffe040 140737488347200 
r14 0x0 0 
r15 0x0 0 
rip 0x40057b 0x40057b <main+78> 
6.2 ARM 
6.3 ARM:3 个 参数 


习惯 上 ，ARM 传 递 参 数 的 规则 (参数 调用 ) 如 下 :前 4 个 参数 传递 给 了 R0-R3 寄 存 器 ， 
其 余 的 参数 则 在 栈 中 。 这 和 fastcall 或 者 win64 传 递 参 数 很 相似 


32-bit ARM 


Non-optimizing Keil + ARM mode( 非 优化 Keil 编译 模式 + ARM 
环境 ) 


.text:00000014 printf maini 

.text:00000014 10 40 2D E9 STMFD SP!, {R4, LR} 
.text:00000018 03 30 AO E3 MOV R3, #3 

.text:0000001C 02 20 AO E3 MOV R2, #2 

.text:00000020 01 10 AO E3 MOV R1, #1 

.text:00000024 1D OE 8F E2 ADR RO, aADBDCD ; "a=%d; b= 
96d; c=%d 

.text:00000028 OD 19 00 EB BL _ 2printf 
.text:0000002C 10 80 BD E8 LDMFD SP!, {R4,PC} 


所 以 前 四 个 参数 按照 它们 的 顺序 传递 给 了 R0O-R3 ，printf() 中 的 格式 化 字符 串 指针 在 
R0 中 ， 然 后 1 在 R1，2 在 R2，3 在 R3. 到 目前 为 止 没有 什么 不 寻常 的 。 


Optimizing Keil + ARM mode( 优 化 的 keil 编 译 模式 + ARM 环 境 ) 


.text:00000014 EXPORT printf maini 

.text:00000014 printf maini 

.text:00000014 03 30 AO E3 MOV R3, #3 

.text:00000018 02 20 AO E3 MOV R2, #2 

.text:0000001C 01 10 AO E3 MOV R1, #1 

.text:00000020 1E OE 8F E2 ADR RO, aADBDCD ; "a=%d; b=%d; 
c=%d 

.text:00000024 CB 18 00 EA B _ 2printf 


表 5.7: Optimizing Keil + ARM mode 


这 是 在 针对 ARM optimized (-O3)R AKT AY > RAIT BYE A IG — 48 4 9 ERA 
i&&WBL » 3X 7L — 4-4 FI ZA f£ optimized 5 Z ay 49 (compiled without optimization)t 
RAH & c prologue 和 epilogue( 储 存 RO 和 LR 值 的 寄存 器 ) ，B 指 令 仅 仅 跳 向 另 一 处 
地 址 ， 没 有 任何 关于 LR 寄存 器 的 操作 ， 也 就 是 说 它 和 x86 中 的 jmp 相 似 ， 为 什么 会 
这 样 ? 了 因为 代码 就 是 这 样 ， 事 实 上 ， 这 和 前 面相 似 ， 主 要 有 两 点 原因 1) 不 管 是 栈 还 
是 SP( 栈 指针 )， 都 有 被 修改 。2)printf() 的 调用 是 最 后 的 指令 ， 所 以 之 后 便 没 有 了 。 
完成 之 后 ，printf() 辑 数 就 返回 到 LR 储存 的 地 址 处 。 但 是 指针 地 址 从 函数 调用 的 地 方 
转移 到 了 LR 中 ! 接着 就 会 从 printf() 到 那里 。 结 果 ， 我 们 不 需要 保存 LR， 因 为 我 们 
没有 必要 修改 LR。 因 为 除了 printf() 驾 数 外 没有 其 他 防 数 了 。 另 外 ， 除 了 这 个 调用 
外 ， 我 们 不 需要 再 做 别 的 。 这 就 是 为 什么 这 样 编译 是 可 行 的 。 


Optimizing Keil + thumb mode 


.text 
.text 
.text 
.text 
.text 
.text 
96d 
.text 
.text 


#6.8 : Optimizing Keil + thumb mode 


:0000000C 
:0000000C 
:0000000E 
: 00000010 
: 00000012 
:00000014 


: 00000016 
:0000001A 


10 
03 
02 
01 
A4 


06 
10 


printf_main1 


B5 
23 


EB F8 


PUSH {R4, LR} 
MOVS R3, #3 
MOVS R2, #2 
MOVS R1, #1 
ADR RO, aADBDCD ; 


BL _ 2printf 
POP {R4,PC} 


和 non-optimized for ARM mode 代 码 没 什么 明显 的 区 别 


"a=%d; b=%d; c= 


Optimizing Keil 6/2013 (ARM mode) + 让 我 们 移 除 return 


ARM 64 


Non-optimizing GCC (Linaro) 4.9 


6.2.2 ARM: 8 arguments 


我 们 再 用 之 前 9 个 参数 的 那个 例子 


void printf_main2() 


printf("a=%d; b=%d; c=%d; d=%d; e=%d; f=%d; g=%d; h=%d 


", 1, 2, 3, 4, 5, 6, 7, 8); 


, 


Optimizing Keil: ARM mode 


.text:00000028 printf main2 
. text :00000028 


.text:00000028 var 18 - -0x18 

.text:00000028 var 14 = -0x14 

.text:00000028 var 4 = -4 

.text:00000028 

.text:00000028 04 EO 2D E5 STR LR, [SP,£Zvar 4]! 
.text:0000002C 14 DO 4D E2 SUB SP, SP, #0x14 
.text:00000030 08 30 AO E3 MOV R3, #8 

.text:00000034 07 20 AO E3 MOV R2, #7 

.text:00000038 06 10 AO E3 MOV R1, #6 

.text:0000003C 05 00 AO E3 MOV RO, £5 

.text:00000040 04 CO 8D E2 ADD R12, SP, #0x18+var_14 
.text:00000044 OF 00 8C E8 STMIA R12, {RO-R3} 
.text:00000048 04 00 AO E3 MOV RO, #4 

.text:0000004C 00 00 8D E5 STR RO, [SP,#0x18+var_18] 
.text:00000050 03 30 AO E3 MOV R3, #3 

.text:00000054 02 20 AO E3 MOV R2, #2 

.text:00000058 01 10 AO E3 MOV R1, #1 

.text:0000005C 6E OF 8F E2 ADR RO, aADBDCDDDEDFDGD ; "a 
=%d; b=%d; c=%d; d=%d; 

e=%d; f-9d; g=%"... 

.text:00000060 BC 18 00 EB BL _ 2printf 
.text:00000064 14 DO 8D E2 ADD SP, SP, #0x14 
.text:00000068 04 FO 9D E4 LDR PC, [SP+4+var_4], #4 


这 些 代码 可 以 分 成 几 个 部 分 : 
Function prologue: 


最 开始 的 "STR LR, [SP var. 4] 指令 将 LR 储 存在 栈 中 ， 因 为 我 们 将 用 这 个 寄存 器 
调用 printf()。 


第 二 个 " SUB SP, SP, #0x14” 指 令 减 了 SP( 栈 指针 ), 为 了 在 栈 上 分 配 0x14(20)bytes 的 
内 存 ， 实 际 上 我 们 需要 传递 5 个 32-bit 的 数据 通过 栈 传递 给 printf() 函 数 ， 而 且 每 个 占 
4bytes， 也 就 是 5*4=20。 另 外 4 个 32-bit 的 数据 将 会 传递 给 寄存 器 。 


通过 栈 传递 5，6，7 和 8 : 


然后 ，5，6，7，8 分 别 被 写 入 了 R0，R1，R2 及 R3 寄 存 器 。 然 

后 ADD R12，SP,#0x18+var_14 指令 将 栈 中 指针 的 地 址 写 入 ， 并 且 在 这 里 会 向 
R12 写 入 4 个 值 ， var_14 是 一 个 汇编 宏 ， 相 当 于 0x14， 这 些 都 由 IDA 简 明 的 创建 
表示 访问 栈 的 变量 ，var_? 在 IDA 中 表示 栈 中 的 本 地 变量 ， 所 以 SP+4 将 被 写 入 R12 
寄存 器 。 下 一 步 的 "STMIA R12, RO-R3" 指 令 将 RO-R3 寄 存 器 的 内 容 写 在 了 R2 指 向 的 
指针 处 。 STMIA 指 令 指 Store Multiple Increment After, Increment After 指 R12 寄存 
器 在 有 值 写 入 后 自 增 4 。 


通过 栈 传递 4: 


4 存在 RO 中 ， 然 后 这 个 值 在 "STR RO, [SP#Ox18+var_18]" 指 令 帮 助 下 ， 存 在 了 栈 
上 ，var_18 是 0x18， 偏 移 量 为 0. 所 以 RO 寄 存 器 中 的 值 将 会 写 在 SP 指针 指向 的 指针 


处 。 
通过 寄存 器 传递 1，2，3: 


开始 3 个 数 (a,b,c)( 分 别 是 1,2,3) 正 好 在 printf() 函 数 调用 前 被 传递 到 了 R1，R2，R3 寄 


存 器 中 。 然后 另外 5 个 值 通过 栈 传递 。 
printf() 调用 : 


"ADD SP SP, #0x14” 指 令 将 SP 指针 返回 到 之 前 的 指针 处 ， 因 此 清除 了 栈 ， 当 然 ， 
栈 中 之 前 写 入 的 数据 还 在 那 ， 但 是 当 后 来 的 函数 被 调用 时 那里 则 会 被 重 写 。 “LDR 
PC, [SP+4+var_4],#4" 指 令 将 LR 中 储存 的 值 载 入 到 PC 指针 ， 因 此 元 数 结束 。 


Optimizing Keil: thumb mode 


. text :0000001C 
. text :0000001C 


printf_main2 


. text :0000001C var 18 = -0x18 
. text :0000001C var 14 - -0x14 
. text :0000001C var_8 = -8 

. text :0000001C 

.text:0000001C 00 B5 PUSH 
.text:0000001E 08 23 MOVS 
.text:00000020 85 BO SUB 
.text:00000022 04 93 STR 
.text:00000024 07 22 MOVS 
.text:00000026 06 21 MOVS 
.text:00000028 05 20 MOVS 
.text:0000002A 01 AB ADD 
.text:0000002C 07 C3 STMIA 
.text:0000002E 04 20 MOVS 
.text:00000030 00 90 STR 
.text:00000032 03 23 MOVS 
.text:00000034 02 22 MOVS 
.text:00000036 01 21 MOVS 
.text:00000038 AO AO ADR 


R3, 
R3!, 
RO, 
RO, 
R3, 
R2, 
R1, 
RO, 


b=%d; c=%d; d=%d; e=%d; f=%d; g=%"... 


.text:0000003A 06 FO D9 F8 BL _ 2printf 


. text :0000003E 
. text :0000003E 
.text:0000003E 05 BO 
.text:00000040 00 BD 


SP, 40x14 
[SP, #0x18+var_8] 
#7 


#6 

#5 

SP, #0x18+var_14 
(RO-R2) 

#4 


[SP,#0x18+var_18] 
#3 
#2 
#1 
aADBDCDDDEDFDGD ; 


"a=%d ; 


loc 3E ; CODE XREF: example13_f+16 
ADD SP, SP, #0x14 
POP {PC} 


几乎 和 之 前 的 例子 是 一 样 的 ， 然 后 这 是 thumb 代码 ， 值 入 栈 的 确 不 同 : 先 是 8， 然 后 


556*7 i pS EAS 


5.4.3 Optimizing Xcode (LLVM): ARM mode 


. text:0000290C _printf_main2 
__text:0000290C 


__text:0000290C var 1C = -Ox1C 

__text:0000290C var_C = -0XC 

. text:0000290C 

. text:0000290C 80 40 2D E9 STMFD SP!, {R7,LR} 

. text:00002910 OD 70 AO E1 MOV R7, SP 

. text:00002914 14 DO 4D E2 SUB SP, SP, #0x14 
__text:00002918 70 05 01 E3 MOV RO, #0x1570 
__text:0000291C 07 CO AO E3 MOV R12, #7 

. text:00002920 00 00 40 E3 MOVT RO, #0 

. text:00002924 04 20 AO E3 MOV R2, #4 

. text:00002928 00 00 8F EO ADD RO, PC, RO 

. text:0000292C 06 30 AO E3 MOV R3, #6 

. text:00002930 05 10 AO E3 MOV R1, #5 

. text:00002934 00 20 8D E5 STR R2, [SP,#0x1C+var_1C] 
. text:00002938 0A 10 8D E9 STMFA SP, {R1,R3,R12} 
. text:0000293C 08 90 AO E3 MOV R9, £8 

. text:00002940 01 10 AO ES3 MOV R1, #1 

. text:00002944 02 20 AO E3 MOV R2, #2 

. text:00002948 03 30 AO E3 MOV R3, £3 

. text:0000294C 10 90 8D E5 STR R9, [SP,40x1C-*var C] 
. text:00002950 A4 05 00 EB BL _printf 

. text:00002954 07 DO AO E1 MOV SP, R7 

. text:00002958 80 80 BD E8 LDMFD SP!, {R7,PC} 


几乎 和 我 们 之 前 遇 到 的 一 样 ， 除 了 STMFA(Store Multiple Full Ascending)4& + > 
和 STMIB(Store Multiple Increment Before) 指 令 一 样 ， 这 个 指令 直到 下 个 寄存 器 的 
值 写 入 内 看 时 会 增加 SP 寄存 器 中 的 值 ， 但 是 反 过 来 却 不 同 。 


另外 一 个 地 方 我 们 可 以 轻松 的 发 现 指 令 是 随机 分 布 的 ， 例 如 ，R0 寄 存 器 中 的 值 在 三 
个 地 方 初始 ， 在 0x2918，0x2920,0x2928。 而 这 一 个 指令 就 可 以 搞定 。 然 而 ， 
optimizing compiler 有 它 自己 的 原因 ， 对 于 如 何 更 好 的 放置 指令 ， 通 常 ， 处 理 器 举 
试 同 时 执行 并 行 的 指令 ， 例 如 像 ” MOVT RO, #0” 和 ”ADD RO, PC,R0” 就 不 能 同时 执 
行 了 ， 因 为 它们 同时 都 在 修改 R0 寄 存 器 ， 另 一 方面 "MOVT RO, #0" 和 ”MOV R2, 

##4" 指 令 却 可 以 同时 执行 ， 因 为 执行 效果 并 没有 任何 冲突 。 大概， 编译 器 就 是 这 样 
尝试 编译 的 ， 可 能 。 


Optimizing Xcode (LLVM): thumb-2 mode 


— text: 
. text: 
— text: 
— text: 
. text: 
— text: 
— text: 
— text: 
— text: 
— text: 
— text: 
— text: 
. text: 
— text: 
— text: 
. text: 
. text: 
. text: 
. text: 
. text: 
. text: 
— text: 
— text: 
. text: 
. text: 
__ text: 
. text: 


00002BA0 
00002BA0 
00002BA0 
00002BA0 
00002BA0 
00002BA0 
00002BA0 
00002BA2 
00002BAA4 
00002BA6 
00002BAA 
00002BAE 
00002BB2 
00002BBA 
00002BB6 
00002BB8 
00002BBA 
00002BBE 
00002BCO 
00002BCA 
00002BC8 
00002BCA 
00002BCC 
00002BCE 
00002BD2 
00002BD6 
00002BD8 


80 
6F 
85 
41 
4F 
CO 
04 
78 
06 
05 
OD 
00 
4F 
8E 
01 
02 
03 
CD 
01 
05 
80 


几乎 和 前 面 的 例子 相同 ， 


ARM 64 


_printf_main2 


var_1C = -0x1C 
var_18 


var_C 


B5 
46 
BO 
F2 
FO 
F2 
22 
44 
23 
21 
Fi 
92 
FO 
E8 
21 
22 
23 
F8 
FO 
BO 
BD 


D8 
07 
00 


04 


08 
0A 


10 
0A 


20 
oc 
00 


OE 


09 
10 


90 
EA 


无 优化 的 GCC (Linaro) 4.9 


6.3 MIPS 


6.3.1 3 个 参数 


带 优 化 的 GCC 4.4.5 


无 优化 的 GCC 4.4.5 


6.3.2 8 个 参数 


-0X 
-OxC 


18 


PUSH 
MOV 
SUB 
MOVW 
MOV.W 
MOVT.W 
MOVS 
ADD 
MOVS 
MOVS 
ADD.W 
STR 
MOV.W 
STMIA.W 
MOVS 
MOVS 
MOVS 
STR.W 
BLX 
ADD 
POP 


{R7,LR} 

R7, SP 

SP, SP, #0x14 
RO, #0x12D8 
R12, #7 
RO, #0 
R2, #4 
RO, PC ; 
R3, #6 
R1, #5 
LR, SP, #0x1C+var_18 
R2, [SP,40x1C-*var. 1C] 
R9, 48 

LR, {R1,R3,R12} 

R1, 41 

R2, #2 

R3, #3 

R9, [SP,40x1C-*var. C] 
_printf 

SP, SP, #0x14 

{R7,PC} 


char * 


除了 thumb-instructions 在 这 里 被 替代 使 用 了 


带 优 化 的 GCC 4.4.5 


无 优化 的 GCC 4.4.5 
6.4 结论 


6.5 By the way 


值得 一 提 的 是 ， 这 些 X86,x64,fastcall 和 ARM 传 递 参 数 的 不 同 表现 了 CPU 并 不 在 意 函 
数 参 数 是 怎样 传递 的 ， 同 样 也 假想 编译 器 可 能 用 特殊 的 结构 传送 参数 而 一 点 也 不 是 
通过 栈 。 


第 七 章 

scanf() 

现在 我 们 来 使 用 scanf()。 
7.1 简单 的 例子 


#include «stdio.h» 
int main() 


int xX; 

printf ("Enter X: 
BU 

scanf ("%d", &x); 

printf ("You entered %d... 
", X); 

return 0; 
3 


如 今 使 用 scanf() 作 为 用 户 交互 非常 不 明智 ， 但 是 我 们 还 是 可 以 说 明 如 何 把 指针 传递 


给 int 变 量 。 


7.1.4 关于 指针 


指针 是 计算 机 科学 中 最 基础 的 概念 之 一 。 通 常 ， 大 数组 、 结 构 或 对 象 作为 参数 被 传 
递 给 其 它 函 数 花 费 太 大 ， 而 传递 它们 的 地 址 要 相对 简单 的 多 。 此 外 : RAH BK 
要 修改 作为 参数 传 进来 的 数组 或 结构 中 的 数据 ， 并 将 其 整体 返回 ， 那 这 种 情况 就 太 
荒唐 了 。 因 此 最 简单 的 办 法 就 是 把 数组 或 结构 的 地 址 传递 给 函数 ， 让 函数 进行 修 
改 。 


在 C/C++ 中 指针 就 是 某 处 内 存 的 地 址 。 


在 X86 中 ， 地 址 是 以 32 位 数 表 示 的 ( 占 4 字 节 ) ; 在 X86-64 中 是 64 位 数 〈 占 8 字 
节 ) 。 顺 便 一 说 ， 这 也 是 为 什么 有 些 人 在 改 用 x86-64 时 感到 愤 起 一 X64 架构 中 所 
有 的 指针 需要 的 空间 是 原来 的 两 倍 。 


通过 某 种 方法 ， 只 使 用 无 类 型 指针 也 是 可 行 的 。 例 如 标准 C 函 数 memcpy()， 用 于 把 
一 个 区 块 复制 到 另外 一 个 区 块 上 ， 需 要 两 个 void* 型 指针 作为 输入 ， 因 为 你 无 法 预 
知 ， 也 无 需 知道 要 复制 区 块 的 类 型 ， 区 块 的 大 小 才 是 重要 的 。 


当 函 数 需要 一 个 以 上 的 返回 和 值 时 也 经 常用 到 指针 (等 到 第 十 章 再 讲 ) 。scanf() 就 是 
这 样 ， 函 数 除了 要 显示 成 功 读 入 的 字符 个 数 外 ， 还 要 返回 全 部 值 。 


在 C/C++ 中 ， 指 针 类 型 只 是 用 于 在 编译 阶段 进行 类 型 检查 。 木 质 上 ， 在 已 编译 的 代 
码 中 并 不 包含 指针 类 型 的 信息 。 


7.1.2 x86 


MSVC 


MVSC 2010 编 译 后 得 到 下 面 代码 


CONST SEGMENT 

$SG3831 DB 'Enter X:', OaH, OOH 
$SG3832 DB '%d’, OOH 

35 

6.2. X86 CHAPTER 6. SCANF() 
$SG3833 DB 'You entered %d...’, QaH, OOH 
CONST ENDS 

PUBLIC main 

EXTRN . scanf : PROC 

EXTRN . printf:PROC 

; Function compile flags: /Odtp 
. TEXT SEGMENT 


_x$ = -4 ; size = 4 
_main PROC 
push ebp 
mov ebp, esp 
push ecx 
push OFFSET $SG3831 ; ‘Enter X:’ 
call _printf 
add esp, 4 
lea eax, DWORD PTR _x$[ebp] 
push eax 
push OFFSET $SG3832 ; '%d’ 
call _scanf 
add esp, 8 
mov ecx, DWORD PTR _x$[ebp] 
push ecx 
push OFFSET $SG3833 ; 'You entered %d...’ 
call _printf 
add esp, 8 
; return 0 
xor eax, eax 
mov esp, ebp 
pop ebp 
ret 0 
_main ENDP 
. TEXT ENDS 


X 是 局 部 变量 。 


D: 


C/C++ 标 准 告诉 我 们 它 只 对 函数 内 部 可 见 ， 无 法 从 外 部 访问 。 习 惯 上 ， 局 部 变量 放 
在 栈 中 。 也 可 能 有 其 他 方法 ， 但 在 x86 中 是 这 样 。 


函数 序言 后 下 一 条 指令 PUSH ECX 目 的 并 不 是 要 存储 ECX 的 状态 (注意 程序 结尾 没 
有 与 之 相对 的 POP ECX) 。 


事实 上 这 条 指令 仅仅 是 在 栈 中 分 配 了 4 字 节 用 于 存储 变量 x。 
AMNEM A Min 


4 —^M,8AXduTN:EBPIXRHSS qw 3i$i EBP-offset 32 I9] Sh E E Fe BAR 
参数 也 是 可 行 的 。 


也 可 以 使 用 ESP 寄 存 器 达到 相同 目的 ， 但 由 于 它 经 常 变化 所 以 使 用 不 方便 。EBP 值 
保存 了 进入 函数 时 ESP 的 值 。 


下 面 是 一 个 非常 典型 的 32 位 栈 帧 结构 


EBP-8 local variable #2, marked in IDA as var 8 
EBP-4 local variable #1, marked in IDA as var 4 
EBP saved value of EBP 

EBP+4 return address 

EBP+8 argument#1, marked in IDA as arg O 
EBP-OxC argument#2, marked in IDA as arg 4 
EBP+0x10 argument#3, marked in IDA as arg 8 


在 我 们 的 例子 中 ，scanf() 有 两 个 参数 。 
第 一 个 参数 是 指向 "od" 的 字符 囊 指针 ， 第 二 个 是 变量 Xx 的 地 址 。 


首先 ， lea eax，DWORD po  x$[ebp] 指令 将 变量 X 的 地 址 放 入 EAX 寄存 器 。 
LEA 作 用 是 " 取 有 效 地 址 " ， 常用 来 生成 一 个 地 址 (A.6.2) < 


可 以 说 ，LEA 在 这 里 只 是 把 EBP 的 值 与 宏 x$ 的 值 相 加 ， 并 存储 在 EAX 寄 存 器 中 。 
lea eax，[ebp-4] 的 作用 也 是 一 样 。 


EBP 的 值 减 去 4， 结 果 放 在 EAX 寄存 器 中 。 接 着 EAX 寄存 器 的 值 被 压 入 栈 中 ， 再 调 
Fl] printf() ° 


之 后 ，printf() 被 调用 。 第 一 个 参数 是 一 个 字符 串 指针 : "You entered %d ... " 


第 二 个 参数 是 通过 mov ecx, [ebp-4] 使 用 的 ， 这 个 指令 把 变量 x 的 内 容 传 给 ECX 而 不 
是 它 的 地 址 。 


然后 ，ECX 的 值 放 入 栈 中 ， 接 着 最 后 一 次 调用 printf()。 


7.1.3 MSVC+OllyDbg 


我 们 在 OllyDbg 中 使 用 这 个 例子 。 首 先 载 入 程序 BEFORE SS 并 入 我 们 的 可 执行 文件 
而 不 是 ntdll.dll。 往 下 滚动 屏幕 找到 main()。 点 击 第 一 条 指令 (PUSH EBP) ， 按 F2 
设置 断 点 ， 再 按 F9 执 行 ， 触 发 main() 开 始 处 的 断 点 。 


让 我 们 来 跟随 到 准备 变量 x 的 地 址 的 位 置 。 


CPU - main thread, module ex1 


É 090361028 e«1.00 








( 77D476 

o|reessrace 

4|| 00361270| RETURN to ex1,00961270 fr 
2009099 





图 7.1 OllyDbg : 计算 局 部 变量 的 地 址 


可 以 右 击 寄存 器 窗口 的 EAX， 再 点 击 "堆栈 窗口 中 跟随 "。 ng 窗口 中 

显示 。 观 察 ， See NO AUN 。 我 在 图 中 用 红色 箭头 标 出 。 这 里 是 一 些 无 
用 数据 (Ox77D478) 。PUSH 指 令 BI DM eS yee 。 然 后 按 F8 

E $|scanf() BRANT HK ° eh 我 们 要 在 命令 行 窗口 中 输入 ， 例 如 输入 
123 ° 


EN C:\Polygon\ollydbg\ex1.exe 





图 7.2 命令 行 输出 
scanf() 在 这 里 执行 。 


CPU - main thread, module ex1 





e] ru T ? 


d 9033F OCD 
00361270| RETURN to «x1.00361270 fro 
0000000! 





图 7.3 : OllyDbg : scanf() 执 行 


scanf() 在 EAX 中 返回 1， 这 意味 着 成 功 读 入 了 一 个 值 。 现 在 我 们 关心 的 那个 栈 元 素 
中 的 值 是 0x7B(123)。 


接 下 来 ， 这 个 值 从 栈 中 复制 到 ECX 寄 存 器 中 ， 然 后 传递 给 printf() 。 









(forma: = “Enter 
| |Lprinte 






mm wm 





[57 = 7B 1128.) 
format “You entered : 


what = 
printf 








.DM 


图 7.4 : OllyDbg : 准备 把 值 传递 给 printf() 


GCC 


让 我 们 在 Linux GCC 4.4.1 下 编译 这 段 代 码 


main proc near 
var_20 = dword ptr -20h 
var 1C = dword ptr -1Ch 
var 4 - dword ptr -4 
push ebp 
mov ebp, esp 
and esp, OFFFFFFFOh 
sub esp, 20h 
mov [esp*-20h-var 20], offset aEnterX ; "Ente 
px 
call puts 
mov eax, offset aD ; "9d" 
lea edx, [esp-20h-var 4] 
mov [esp+20h+var_1C], edx 
mov [esp*-20h-var 20], eax 
call .  isoc99 scanf 
mov edx, [esp-20h-var 4] 
mov eax, offset aYouEnteredD . ; "You enter 
ed 96d. . . ^n" 
mov [esp*-20h-var 1C], edx 
mov [esp*-20h-var 20], eax 
call _printf 
mov eax, 0 
leave 
retn 


main endp 


GCC 把 第 一 个 调用 的 printf() 替 换 成 了 puts()， 原 因 在 3.4.3 节 中 讲 过 了 。 
和 在 MSVC 例 子 中 一 样 ， 参 数 都 是 用 MOV 指 令 放 入 栈 中 。 


By the way 


顺带 一 说 ， 这 个 简单 的 例子 是 编译 器 将 C/C++ 表达 式 翻 译 成 指令 列表 的 丨 实 演示 。 
C/C++ 表 达 式 间 没 任何 联系 。 编 译 器 并 没有 神奇 之 处 ， 只 不 过 把 编程 语言 逐 行 翻译 
成 对 应 的 机 器 码 代 码 而 已 。 


7.1.4 x64 
和 原来 一 样 ， 只 是 传递 参数 时 不 使 用 栈 而 使 用 寄存 器 。 


MSVC 


_DATA SEGMENT 

$SG1289 DB 'Enter X:', OaH, OOH 

$SG1291 DB '%d’, OOH 

$SG1292 DB “You entered %d...’, OaH, OOH 
_DATA ENDS 


TEXT SEGMENT 


x$ = 32 
main PROC 
$LN3: 
sub rsp, 56 


lea rcx, OFFSET FLAT:$SG1289 ; ‘Enter X:’ 

call printf 

lea rdx, QWORD PTR x$[rsp] 

lea rcx, OFFSET FLAT:$SG1291 ; '%d’ 

call scanf 

mov edx, DWORD PTR x$[rsp] 

lea rcx, OFFSET FLAT:$SG1292 ; ‘You entered %d...’ 
call printf 

; return 0 

xor eax, eax 


add rsp, 56 
ret O 

main ENDP 

_ TEXT ENDS 


GCC 


.string "Enter X:" 


JECTS 
.String "%d" 

IE: 
.string "You entered %d... 

main 
sub rsp, 24 
mov edi, OFFSET FLAT:.LCO ; "Enter X:" 
call puts 
lea rsi, [rsp+12] 
mov edi, OFFSET FLAT:.LC1 ; "96d" 
xor eax, eax 
call . isoc99 scanf 
mov esi, DWORD PTR [rsp-*12] 
mov edi, OFFSET FLAT:.LC2 ; "You entered Xd... 
xor eax, eax 
call printf 
; return 0 
xor eax, eax 
add rsp, 24 
ret 

7.1.5 ARM 


keil 优 化 +thumb mode 


.text:00000042 scanf main 

.text:09009042 

. text :00000042 var_8 = -8 

. text :00000042 

. text :00000042 08 B5 PUSH {R3, LR} 

. text :00000044 A9 AO ADR RO, aEnterX ; "Enter X: 
.text:00000046 06 FO D3 F8 BL _ 2printf 
.text:0000004A 69 46 MOV R1, SP 

.text:0000004C AA AO ADR RO, aD ; "%d" 
.text:0000004E 06 FO CD F8 BL . Oscanf 

.text:00000052 00 99 LDR R1, [SP,#8+var_8] 
.text:00000054 A9 AO ADR RO, aYouEnteredD . ; "Y 
ou entered %d... 

.text:00000056 06 FO CB F8 BL _ 2printf 
.text:0000005A 00 20 MOVS RO, #0 


.text:0000005C 08 BD POP {R3, PC} 


必须 把 一 个 指向 int 变 量 的 指针 传递 给 scanf()， 这 样 才 能 通过 这 个 指针 返回 一 个 值 。 
Int 是 一 个 32 位 的 值 ， 所 以 我 们 在 内 存 中 需要 4 字 节 存储 ， > 并且 正好 符合 32 位 的 寄存 
器 。 局 部 变量 Xx 的 空间 分 配 在 栈 中 ，1DA 把 他 命 名 为 var 8。 然而 并 不 需要 分 配 空 

a ' 因为 栈 指针 (SP) 指 向 的 空间 可 以 被 立即 使 用 。 人 | SIRE 4 


器 中 ， 然 后 和 格式 化 字符 串 一 起 送 入 Scanf()。 然 后 LDR 指 令 将 这 个 值 从 栈 中 送 入 民 1 
寄存 器 ， 用 以 送 入 printf() 中 。 
用 ARM-mode 和 Xcode LLVM 编 译 的 代码 区 别 不 大 ， 这 里 略 去 。 
ARM64 
.LCO: 
.string "Enter X:" 
NEC 
.string "%d" 
G2E: 


.String "You entered 9*d...*n" 
scanf main: 
; subtract 32 from SP, then save FP and LR in stack frame: 
stp x29, x30, [sp, -32]! 
; set stack frame (FP=SP) 
add x29, sp, 0 
; load pointer to the "Enter X:" string 
adrp x0, .LCO 
add x0, x0, :1012:.LCO 
; X0-pointer to the "Enter X:" string 
print: 
bl puts 
; load pointer to the "\%d" string: 
adrp XO seed 
add x0, x0, 1012: J LCL 
; find a space in stack frame for "x" variable (X1=FP+28): 
add x1, x29, 28 
; X1-address of "x" variable' 
; pass the address to scanf() and call it: 
bl _ isoc99 scanf 
; load 32-bit value from the variable in stack frame: 
ldr wi, [x29,28] 
W1=x 
load pointer to the "You entered \%d...\n" string 
printf() will take text string from XO and "x" variable from X 
(or W1) 
adrp x0, .LC2 
add x0, x0, :1012:.LC2 
bl printf 
; return 0 
mov wO, 0 
; restore FP and LR, then add 32 to SP: 
ldp x29, x30, [sp], 32 
ret 


hese Ne NS 


在 栈 帧 上 申请 了 32 字 节 空 间 ， 比 它 需 要 的 要 大 ， 可 能 是 因为 内 存 地 址 对 齐 问 题 ? 最 
有 趣 的 是 寻找 栈 帧 上 Xx 变 量 的 空间 (代码 22 行 )， 为 什么 是 加 28? 因 为 编译 器 是 在 栈 帧 
的 结束 而 不 是 开始 的 时 间 决 定 变量 的 空间 。 传 递 给 scanf() 的 地 址 上 储存 这 用 户 输 入 
的 值 。32 位 值 的 类 型 是 int， 在 代码 27 行 中 拿 到 然后 传递 给 printf()。 


7.1.6 MIPS 


用 $sp+24 指 向 栈 上 申请 的 X 变 量 的 地 址 ， 然 后 将 地 址 传 给 scanf()， 用 户 和 输入 的 值 使 
用 LW(Load Word) 指 令 传 递 给 printf() ° 


Listing 7.4: Optimizing GCC 4.4.5 (assembly output) 


$LCO: 

$LC1: 

$LC2: 

.ascii "Enter X:\000" 

.ascii "%d\000" 

.ascii "You entered %d...\012\000" 


main: 
; function prologue: 
lui $28,%hi(__gnu_local_gp) 
addiu . $sp,$sp, -40 
addiu  $28,$28,%lo(__gnu_local_gp) 
SW $31, 36($sp) 
; call puts(): 
lw $25,%cal116(puts) ($28) 
lui $4,%hi($LCO) 
jalr $25 


addiu $4,$4,%lo($LCO) ; branch delay slot 
; call scanf(): 


lw $28,16($sp) 
lui $4,%hi($LC1) 
lw $25,%call16(_isoc99_scanf)($28) 


; set 2nd argument of scanf(), $a1=$sp+24: 
addiu $5,$sp,24 
jalr $25 
addiu  $4,$4,%lo($LC1) ; branch delay slot 
; call printf() : 
lw $28,16($sp) 
; set 2nd argument of printf(), 
load word at address $sp+24: 


-- 


IDA 中 显示 的 栈 帧 情况 如 下 : 


.text:00000000 main: 
. text: 00000000 


. text: 00000000 var 18 = -0x18 
. text: 00000000 var 10 = -0x10 
. text: 00000000 var 4 = -4 


.text:00000000 
; function prologue: 


.text:00000000 lui $gp, (. gnu local gp >> 1 
6) 

. text : 00000004 addiu $sp, -0x28 

. text : 00000008 la $gp, (. gnu local gp & Ox 
FFFF) 

.text:0000000C SW $ra, Ox28-var A4($sp) 
.text:00000010 SW $gp, Ox28+var_18($sp) 

; call puts(): 

. text : 00000014 lw $t9, (puts & OxFFFF)($gp) 
. text: 00000018 lui $a0, ($LCO >> 16) # "Ent 
er X:" 

.text :0000001C jalr $t9 

. text :00000020 la $a0, ($LCO & OxFFFF) # " 


Enter X:" ; branch delay slot 
; call scanf(): 


. text : 00000024 lw $gp, 0x28+var_18($sp) 

. text :00000028 lui $a0, ($LC1 >> 16) # "%d" 
.text:0000002C lw $t9, (__isoc99_ scanf & Ox 
FFFF)($gp) 

; set 2nd argument of scanf(), $a1=$sp+24: 

. text : 00000030 addiu $a1, $sp, Ox28+var_10 
.text:00000034 jalr $t9 ; branch delay slot 
. text :00000038 la $a0, ($LC1 & OxFFFF) # " 


%d"' 

; call printf() : 

. text :0000003C lw $gp, Ox28+var_18($sp) 
; set 2nd argument of printf(), 

; load word at address $sp+24: 


.text:00000040 lw $a1, Ox28+var_10($sp) 
.text:00000044 lw $t9, (printf & OxFFFF)($g 
p) 

.text:00000048 lui $a0, ($LC2 >> 16) # "You 
entered %d...\n" 

. text :0000004C jalr $t9 

. text : 00000050 la $a0, ($LC2 & OxFFFF) # " 


You entered %d...\n" ; branch delay slot 
; function epilogue: 


. text : 00000054 lw $ra, 0x28+var_4($sp) 

; set return value to 0: 

.text:00000058 move $vO, $zero 

; return: 

. text :0000005C jr $ra 

. text :00000060 addiu $sp, 0x28 ; branch delay 
slot 


7.2 全 局 变量 


如 果 之 前 的 例子 中 的 x 变量 不 再 是 本 地 变量 而 是 全 局 变量 呢 ? 那么 就 有 可 能 从 任何 
地 方 访问 它 ， 不 仅仅 是 函数 体 ， 全 局 变量 被 认为 anti-pattern( 通 常 被 认为 是 一 个 不 好 
的 习惯 )， 但 是 为 了 试验 ， 我 们 可 以 这 样 做 。 


#include <stdio.h> 
NE X? 
int main() 


i 
or 


printf ("Enter X: 


scanf ("%d", &x); 
printf ("You entered %d... 
1 X); 
return 0; 
3 


7.2.1 MSVC: x86 


. DATA SEGMENT 

COMM . X: DWORD 

$SG2456 DB "Enter X:’, QaH, OOH 

$SG2457 DB "%d’, OOH 

$SG2458 DB ‘You entered %d...’, OaH, OOH 
_DATA ENDS 


PUBLIC | main 

EXTRN _scanf:PROC 

EXTRN .printf:PROC 

; Function compile flags: /Odtp 
_ TEXT SEGMENT 


_main PROC 
push ebp 
mov ebp, esp 
push OFFSET $SG2456 
call _printf 
add esp, 4 


push OFFSET _x 
push OFFSET $SG2457 


call _scanf 
add esp, 8 
mov eax, DWORD PTR x 
push eax 
push OFFSET $SG2458 
call _printf 
add esp, 8 
xor eax, eax 
pop ebp 
ret 0 
_main ENDP 


_TEXT ENDS 


现在 X 变 量 被 定义 为 在 _DATA 部 分 ， 局 部 堆栈 不 允许 再 分 配 任何 内 存 ， 除 了 直接 访 
问 内 存 所 有 通过 栈 的 访问 都 不 被 允许 。 o 在 执行 的 文件 中 全 局 变量 还 未 初始 化 (实际 

上 ， 我 们 为 什么 要 在 执行 文件 中 为 未 初始 化 的 变量 分 配 一 块 ? ) 但 是 当 访 问 这 里 时 ， 
系统 会 在 这 里 分 配 一 块 0 值 。 


现在 让 我 们 来 分 析 变 量 的 分 配 。 


int x-10; // default value 


我 们 得 到 : 


_DATA SEGMENT 
X DD OaH 


这 里 我 们 看 见 一 个 双 字 节 的 值 0xXA(DD 表示 双 字 节 = 32bit) 


pou :在 IDA 中 打开 compiled.exe， 你 会 发 现 X 变 量 被 放置 在 _DATA 块 的 开始 处 ， 接 
你 就 会 看 见 文本 字符 囊 。 


At :在 IDA 中 打开 之 前 例子 中 的 compiled.exe 中 X 变 量 没 有 定义 的 地 方 ， 你 就 会 看 
见 像 这 样 的 东西 : 








.data:0040FA80 Xx dd ? ; DATA XREF: | main-*1 
0 

.data:0040FA80 ; _main+22 
.data:0040FA84 dword_40FA84 dd ? ; DATA XREF: _memset 
HTE 

.data:0040FA84 ; unknown_libname_1+ 
28 

.data:0040FA88 dword_40FA88 dd ? ; DATA XREF: sbh. 
find block+5 

.data:0040FA88 ; sbh_free_block+ 
2BC 

.data:0040FA8C ; LPVOID lpMem 

.data:0040FA8C lpMem dd ? ; DATA XREF:  sbh. 
find block-B 

.data:0040FA8C : sbh free block+ 
2CA 

.data:0040FA90 dword 40FA90 dd ? ; DATA XREF: . V6 Hea 
pAlloc+13 

. data: 0040FA90 ; _ Ccalloc impl+72 
.data:0040FA94 dword 40FA94 dd ? ; DATA XREF: sbh. 


~ 


free _block+2FE 


被 _X 替 换 了 ?其 它 变量 也 并 未 要 求 初始 化 ， 这 也 就 是 说 在 载 入 exe 至 内 存 后 ， 
里 有 一 块 针 对 所 有 变量 的 空间 ， 并 且 还 有 一 些 随 机 的 垃圾 数据 。 但 在 exe 中 这 些 
有 初始 化 的 变量 并 不 影响 什么 ， 比 如 它 适 合 大 数组 。 


scanf() 


7.2.2 MSVC: x86 * OllyDbg 


到 这 里 事情 就 变 得 简单 了 














format = "Enter X:g" E MSUCRI16 


LXUMSUCRI18. pr intf >] | bene 






(d) => 7B (123.) EIP 860C1621 ex2.000€ 
[Format = "Vou entered > ES 0028 32bit Oí 
printe 1 CS 0023 22bit a 
6 SS 0026 32bit 61 
8 DS 8826 S2bit BI 
8 FS 0053 32bit 7E 
日 
8 











GS 0028 S2bit 8 


LastErr ERROR, SU 
EFL 00000206 (NO,NB,N 


STO emoty 8.8 
ST! emoty 0.0 
ST2 emoty 0.0 


FEREENA 


PP 
$ 
OO-o0nDvoo 





DIDI 


表 7.5 OllyDbg: scanf() 执 行 后 


变量 都 在 data 部 分 里 ， 在 PUSH 指令 ( 压 入 X 的 地 址 ) 被 执行 后 ， 地 址 将 会 在 栈 中 显 
示 ， 那 么 右 击 元 组 数据 ， 点 击 "Fllow in dump"， 然 后 变量 就 会 在 左 侧 内 存 窗口 显示 . 


在 命令 行 窗口 中 输入 123 后 ， 这 里 就 会 显示 0x7B 


但 是 为 什么 第 一 个 字 节 是 7B? 合 理 的 猜测 ， 这 里 会 有 一 组 00 00 7B， 被 称 为 是 字 节 
顺序 ， 然 后 在 x86 中 使 用 的 是 小 端 ， 也 就 是 说 低位 字 节 先 写 ， 高 位 字 节 后 写 。 


回 到 例子 中 ， 这 里 的 32-bit 值 就 会 载 入 到 EAX 中 ， 然 后 被 传递 给 printf(). 


X 变 量 地址 是 0xDC3390。 在 OllyDbg 中 我 们 看 进程 内 存 映射 (Alt-M)， 然 后 发 现 这 个 
地 址 在 PE 文件 .data 结 构 处 。 


Memory map 人口 | x| 


a 


“Device\HarddiskUVolumel\linc 


3; 


23313 
ccecce 


re locat ions 
PE header 


code, export 
data 
imports 
resources 
relocations 


relocations 


PE header 
code, export 


data 


"ces 


PET HE 








84 


表 7.6: OllyDbg 进程 内 存 映射 


7.2.3 GCC: X86 


这 和 |inux 中 几乎 是 一 样 的 ， 除 了 segment 的 名 称 和 属性 :未 初始 化 变量 被 放置 在 _bss 
部 分 
在 ELF 文 件 格式 中 ， 这 部 分 数据 有 这 样 的 属性 : 


; Segment type: Uninitialized 
; Segment permissions: Read/Write 


如 果 静 态 的 分 配 一 个 值 ， 比 如 10， 它 将 会 被 放 在 _data 部 分 ， 这 部 分 有 下 面 的 属性 : 


; Segment type: Pure data 
; Segment permissions: Read/Write 


7.2.4 MSVC: x64 


_DATA SEGMENT 
COMM X: DWORD 
$SG2924 DB "Enter X:’, QaH, OOH 
$SG2925 DB "%d’, OOH 
$SG2926 DB "You entered %d...’, OaH, OOH 
_DATA ENDS 
_ TEXT SEGMENT 
main PROC 
$LN3: 
sub rsp, 40 
lea rcx, OFFSET FLAT:$SG2924 ; ‘Enter X:’ 
call printf 
lea rdx, OFFSET FLAT:x 
lea rcx, OFFSET FLAT:$SG2925 ; “%d 
call scanf 
mov edx, DWORD PTR x 
lea rcx, OFFSET FLAT:$SG2926 ; 'You entered %d.. 


call printf 
; return 0 


xor eax, eax 
add rsp, 40 
ret 0 


main ENDP 
. TEXT ENDS 


几乎 和 x86 中 的 代码 是 一 样 的 ， 注 总 X 变 量 的 地 址 传递 给 scanf() 用 的 是 LEA 指 令 ， 尽 
管 第 二 处 传递 给 printf() 变 量 时 用 的 是 MOV 指 令 ，"DWORD PTR" 一 一 是 汇编 语言 中 
的 一 部 分 (和 机 器 码 没有 联系 )。 这 就 表示 变量 数据 类 型 是 32-bit， 于 是 MOV 指 令 就 
被 编码 了 。 





7.2.5 ARM:Optimizing Keil 6/2013 (Thumb mode) 


.text 
.text 
.text 
.text 
.text 


: 00000000 
: 00000000 


: 00000000 
: 00000000 
: 00000002 


nter X: 


. text 
. text 
. text 
d" 

.text 
.text 
.text 
.text 


: 00000004 
: 00000008 
:0000000A 


:0000000C 
: 00000010 
:00000012 
: 00000014 


; Segment type: 


Pure code 


AREA .text, CODE 


main 


ou entered %d... 


sue bs 
.text: 
,七 eXt : 


00000016 
0000001A 
0000001C 


.text:00000020 aEnterX 


TA XREF: 
As» 
.text: 


0000002A 
0000002B 


main+2 


.text:0000002C off 2C 


TA XREF: 
.text: 


0000002C 


main-8 


.text:00000030 aD 


TA XREF: 
.text: 
.text:00000034 aYouEnteredD .. 
DATA XREF: 
:00000047 
:00000047 
:00000047 


.text 
.text 
.text 


.data: 
.data: 
.data: 
.data: 
.data: 
TA XREF: 
.data: 


in+10 


.data: 


00000033 


00000048 
00000048 
00000048 
00000048 
00000048 


00000048 


00000048 


ata ends 


main-A 


main-8 


main+14 


"estet: 


; Segment type: 


X 


PUSH {R4, LR} 


ADR RO, aEnterX : 

BL _ 2printf 

LDR Rd, =x 

ADR RO, aD p 

BL . O0scanf 

LDR RO, -x 

LDR R1, [RO] 

ADR RO, aYouEnteredD > 

BL _ 2printf 

MOVS RO, #0 

POP (R4, PC} 

DCB "Enter X:",0xA,0 ; 

DCB 0 

DCB 0 

DCD x / 
; main-10 

DCB "%d", 0 i 

DCB 0 


vE 


"106 


"Y 


DA 


DA 


DA 


DCB "You entered %d...",0xA,0 ; 


DCB O 
ends 


Pure data 

AREA .data, DATA 
; ORG 0x48 
EXPORT x 

DCD OXA 


DA 


ma 


那么 ， 现 在 X 变 量 以 某 种 方式 变 为 全 局 的 ， 现 在 被 放置 在 另 一 个 部 分 中 。 命 名 为 
data 块 (.data)。 有 人 可 能 会 问 ， 为 什么 文本 字符 串 被 放 在 了 代码 块 (.text)， 而 且 X 可 
以 被 放 在 这 ? 因为 这 是 变量 ， 而 且 根 据 它 的 定义 ， 它 可 以 变化 ， 也 有 可 能 会 频繁 变 
化 ， 不 频繁 变化 的 代码 块 可 以 被 放置 在 ROM 中 ， 交 化 的 变量 在 RAM 中 ， 当 有 ROM 
时 在 RAM 中 储存 不 变 的 变量 是 不 利于 节约 资源 的 。 


此 外 ，RAM 中 数据 部 分 常量 必须 在 之 前 初始 化 ， 因 为 在 RAM 使 用 后 ， 很 明显 ， 将 
会 包含 杂乱 的 信息 。 


继续 向 前 ， 我 们 可 以 看 到 ， 在 代码 片段 ， 有 个 指针 指向 X 变 量 (0ff 2C)。 然 后 所 有 关 
于 变量 的 操作 都 是 通过 这 个 指针 。 这 也 是 x 变量 可 以 被 放 在 远离 这 里 地 方 的 原因 。 
所 以 他 的 地 址 一 定 被 存在 离 这 很 近 的 地 方 。LDR 指 令 在 thumb 模 式 下 只 可 访问 指向 
地 址 在 1020bytes 内 的 数据 。 同 样 的 指令 在 ARM 模 式 下 范围 就 达到 

了 -4095bytes~ +4095bytes， 也 就 是 x 变 量 地 址 一 定 要 在 这 附近 的 原因 。 因 为 没 法 
保证 链接 时 会 把 这 个 变量 放 在 附近 ， 它 甚至 可 能 在 外 部 存储 芯片 里 I 


另外 ， 如 果 变 量 以 const 声 明 ，Keil 编 译 环境 下 则 会 将 变量 放 在 .constdata 部 分 ， 大 
概 从 那 以 后 ， 链 接 时 就 可 以 把 这 部 分 和 代码 块 放 在 ROM 里 了 。 





7.2.6 ARM64 


uu 


2b 


Jl: 


.comm x,4,4 


CO: 
.string "Enter X:" 
cI: 
.String "%d" 
C2: 
.String "You entered %d...\n" 


f5: 


, 


, 


本 例 中 ，x 变 量 声明 为 了 全 局 变量 ， 它 的 地 址 通过 ADRP/ADD 指令 对 来 计算 。 
码 21 和 25 行 ). 
7.2.7 MIPS 


; Save FP and LR in stack frame: 


stp x29, x30, [sp, -16]! 


; set stack frame (FP=SP) 


add x29, sp, 0 
load pointer to the "Enter X:" string: 
adrp x0, .LCO 
add x0, x0, :1012:.LCO 
bl puts 
load pointer to the "\%d" string: 
adrp XO ECT 
add x0, x0, :1012:.LC1 
form address of x global variable: 
adrp x1, X 
add x1, x1, :1012:x 
bl _ isoc99 scanf 
form address of x global variable again: 
adrp x0, x 
add x0, x0, :1012:x 
load value from memory at this address: 
ldr wi, [x60] 
load pointer to the "You entered \%d...\n" string: 
adrp x0, .LC2 
add x0, x0, :1012:.LC2 
bl printf 


_return 0 


mov wO, 0 

restore FP and LR: 
ldp x29, x30, [sp], 16 
ret 


未 初始 化 的 全 局 变量 


已 初始 化 的 全 局 变量 


( 代 


7.3 scanf() 结 果 检 查 


正如 我 之 前 所 见 的 ， 现 在 使 用 scanf() 有 点 过 时 了 ， 但 是 如 过 我 们 不 得 不 这 样 做 时 ， 
我 们 需要 检查 scanf() 执 行 完 毕 时 是 否 发 生 了 错误 。 


#include <stdio.h> 
int main() 


au gt meee 
printf ("Enter X: 
")r 
if (scanf ("%d", &x)--1) 
printf ("You entered 9d... 
", X); 
else 
printf ("What you entered? Huh? 
225 
return 0; 
}; 


按 标 准 ，Sscanf() 函 数 返回 成 功 获取 的 字段 数 。 


在 我 们 的 例子 中 ， 如 果 事 情 顺 利 ， 用 户 输入 一 个 数字 ，scanf() 将 会 返回 1 或 0 或 者 错 
误 情 况 下 返回 EOF. 


这 里 ， 我 们 添加 了 一 些 检 查 scanf() 结 果 的 c 代 码 ， 用 来 打印 错误 信息 : 
按照 预期 的 回 显 : 


Ce eX eXe 
Enter X: 
123 


You entered 123... 


CTSS eXe 
Enter X: 
ouch 


What you entered? Huh? 


7.3.1 MSVC: x86 


我 们 可 以 得 到 这 样 的 汇编 代码 (msvc2010): 


lea eax, DWORD PTR  x$[ebp] 


push eax 
push OFFSET $SG3833 ; '*d', QOH 
call _scanf 
add esp, 8 
cmp eax, 1 
jne SHORT $LN2@main 
mov ecx, DWORD PTR  x$[ebp] 
push ecx 
push OFFSET $SG3834 ; 'You entered %d...’, OaH, OOH 
call _printf 
add esp, 8 
jmp SHORT $LNi1Qmain 
$LN2@main: 
push OFFSET $SG3836 ; 'What you entered? Huh?’, QOaH, 
OOH 
call _printf 
add esp, 4 
$LN1@main: 
xor eax, eax 


调用 有 函数 (main()) 必 须 能 够 访问 到 被 调用 函数 (scanf()) 的 结果 ， 所 以 callee 把 这 个 值 
留 在 了 EAX 寄存 器 中 。 


然后 我 们 在 "CMP EAX, 1" 指 令 的 帮助 下 ， 换 和 句 话说 ， 我 们 将 eax 中 的 值 与 1 进行 比 


较 。 
JNE 根 据 CMP 的 结果 判断 跳 至 哪 ，JNE 表 示 (jump if Not Equal) 


所 以 ， 如 果 EAX 中 的 值 不 等 于 1， 那 么 处 理 器 就 会 将 执行 流程 跳 转 到 JNE 指 向 的 ， 
在 我 们 的 例子 中 是 $LN2@main， 当 流程 跳 到 这 里 时 ，CPU 将 会 带 着 参数 "What you 
entered? Huh?" 执 行 printf(), 但 是 执行 正常 ， 就 不 会 发 生 跳 转 ， 然 后 另外 一 个 printf() 
就 会 执行 ， 两 个 参数 为 "You entered %d..." 及 Xx 变量 的 值 。 


为 第 二 个 printf() 并 没有 被 执行 ， 后 面 有 一 个 JMP( 无 条 件 跳 转 )， 就 会 将 执行 流程 
到 第 二 个 printf() 后 "XOR EAX, EAX" 前 ， 执 行 完 返 回 0。 


那么 ， 可 以 这 么 说 ， 比 较 两 个 值 通常 使 用 CMP/Jcc 这 对 指令 ，cc 是 条 件 码 ，CMP 比 
较 两 个 值 ， 然 后 设置 processor flag，Jcc 检 查 flags 然 后 判断 是 否 跳 。 


但 是 事实 上 ， 这 却 被 认为 是 诡异 的 。 但 是 CMP 指 令 事 实 上 ,但 是 CMP 指 令 实 际 上 是 
SUB(subtract), 所 有 算术 指令 都 会 设置 processor flags, 不 仅仅 只 有 CMP ， 当 我 们 上 比 
较 1 和 1 时 ，1 结 果 就 变 成 了 0，ZF flag 就 会 被 设 定 (表示 最 后 一 次 的 比较 结果 为 0)， 
除了 两 个 数 相等 以 外 ， 再 没有 其 他 情况 了 。JNE 检查 ZF flag， 如 果 没 有 设 定 就 会 跳 
转 。JNE 实 际 上 就 是 JNZ(Jump if Not Zero) 指 令 。JNE 和 JNZ 的 机 器 码 都 是 一 样 

的 。 所 以 CMP 指 令 可 以 被 SUB 指 令 代 蔡 ， 几 乎 一 切 的 都 没什么 变化 。 但 是 SUB 会 改 
变 第 一 个 数 ，CMP 是 "SUB without saving result". 


7.3.2 MSVC: x86:IDA 


现在 是 时 候 打 开 IDA 然 后 尝试 做 些 什 么 了 ， 顺 便 说 一 句 。 对 于 初学 者 来 说 使 用 在 
MSVC 中 使 用 /MD 是 个 非常 好 的 主意 。 这 样 所 有 独立 的 部 数 不 会 从 可 执行 文件 中 
link， 而 是 从 MSVCR*.dll。 因 此 这 样 可 以 简单 明了 的 发 现 函 数 在 哪里 被 调用 。 


当 在 IDA 中 分 析 代 码 时 ， 建 议 一 定 要 做 笔记 。 比 如 在 分 析 这 个 例子 的 时 候 ， 我 们 看 
到 了 JNZ 将 要 被 设置 为 error， 所 以 点 击 标注 ， 然 后 标注 为 "error"。 另 外 一 处 标注 
在 "exit": 


:00401009 
:0040100F 
:00401012 
:00401015 
:00401016 
:0040101B 
:00401021 
:00401024 
: 00401027 
: 00401029 
:0040102C 
:0040102D 


:00401032 
:00401038 
:0040103B 
:0040103D 
:0040103D 
:0040103D error: 


_maint+27 


AE» bts 


0040103D 


entered? Huh? 


set 
mee ales 
zie xis 


00401042 
00401048 
0040104B 


var 4 
argc 
argv 
envp 


, 


:00401000 main proc near 
:00401000 
:00401000 
:00401000 
:00401000 
:00401000 
:00401000 
:00401000 
:00401001 
:00401003 
:00401004 


dword 


HoH d 
eo 
三 
o 
m 
[ob 


ptr -4 
ptr 8 
ptr 
ptr 


ebp 
ebp, esp 
ecx 


offset Format 


ds:printf 
esp, 4 
eax, 
eax 
offset aD 
ds:scanf 
esp, 8 

eax, 1 
short error 
ecx, 
ecx 
offset aYou 


ds:printf 
esp, 8 
short exit 


[ebp-*var. 4] 


[ebp-*var. 4] 


cS Ende: 


"ood " 


; "You enter 


.text:0040104B exit: 
_main+3B 


. text 
. text 
. text 
. text 
. text 


现在 理解 代码 就 变 得 非 
函数 的 一 部 分 有 可 能 也 会 被 [DA 隐藏 


:0040104B 
:0040104D 
:0040104F 
:00401050 
:00401050 _main 


endp 


m kk 


offset awhat 


ds:printf 
esp, 4 


eax, eax 
esp, ebp 
ebp 


; CODE XREF: 


; "What you 


; CODE XREF: 


WX oA A RET Sap T —43 3€ 


我 隐藏 了 两 部 分 然后 


.text:00401000 _text 
.text:00401000 
.text:00401000 
.text:00401000 ; ask for X 
.text:00401012 ; get X 
.text:00401024 cmp 
text:00401027 jnz 
text:00401029 ; print result 
text:0040103B jmp 
text:0040103D ; ----------------- 
text:0040103D 
text:0040103D error 
_main+27 
. text :0040103D push 
entered? Huh? 
. text :00401042 call 
. text :00401048 add 
. text: 0040104B 
.text:0040104B exit: 
_main+3B 
. text :0040104B xor 
. text :0040104D mov 
. text :0040104F pop 
. text: 00401050 retn 
.text:00401050 main endp 
如 果 要 显示 这 些 隐 藏 的 部 分 


A 了 压缩 "空间 "， 


后 分 别 给 它们 命名 : 


segment para public 'CODE' use32 
assume cs: 


text 


;org 401000h 


eax, 1 
short error 


short exit 


; CODE XREF: 
offset awhat ; "What you 
ds:printf 
esp, 4 

; CODE XREF: 
eax, eax 
esp, ebp 
ebp 


， 我 们 可 以 点 击 数字 上 的 +。 
我 们 可 以 看 到 IDA 怎 样 用 图 表 代 替 一 个 函数 的 ( 见 图 6.7)， 然 后 在 


每 个 条 件 跳 转 处 有 两 个 箭头 ， 绿 色 和 红色 。 绿 色 箭 头 代 表 如 果 跳 转 触发 的 方向 ， 红 


当然 可 以 折 枉 节点 ， 然 后 备注 名 称 ,我 像 这样 处 理 了 3 块 ( 见 图 6.8): 


这 个 非常 


的 有 用 。 可 以 这 


么 说 ， 逆 向 工程 师 很 重要 的 一 


点 就 是 缩小 他 所 有 的 信息 。 


scanf() 







; int , cdecl main() 
main proc near 





ar à= dword ptr -^ 
argc* dword ptr 8 
rge= dword ptr OCh 
nope dword ptr 1h 












offset Fornat 
all ds:printf 
add esp, ^ 

lea eax, [ebp*var ^] 

push eax 

push offset aD ; zan 
all ds:s5canf 
add esp, 8 
eax, 1 
short error 


; "Enter X:\n" 





ecx, [ebpevar ^] 
ecx ; "What you entered? Huh?\n" 
push offset aYou ; “You entered %d...\n" offset aWhat 

ds:printf ds:printf 
esp, 8 p 
short exit 


图 7.7: IDA 图 形 模式 


; int  cdecl nmain() 
main proc near 


var h- dword ptr -^ 
argc- dword ptr 8 

argu= dword ptr OCh 
envp= dword ptr 10h 


ebp 

ebp, esp 

ecx 

offset Format ; "Enter X:\n" 
ds:printf 

esp, 4 

eax, [ebp*var ^] 

eax 

offset aD ; "$d" 
ds:scanf 

esp, 8 

eax, 1 

short error 





图 7.8: Graph mode in IDA with 3 nodes folded 
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scanf() 


7.3.3 MSVC: x86 * Midi 


让 我 们 继续 在 OllyDbg 中 看 这 个 范例 程序 ， 使 它 认 为 scanf() 怎 么 运行 都 不 会 出 错 。 


当 本 地 变量 地 址 被 传递 给 scanf() 时 ， 这 个 变量 还 有 一 些 垃圾 数据 。 这 里 是 
Ox4CD478: 


CPU - main thread, module e 






5 ECX 6R6SEES9 HS5UCRI1B.6R68EI 








20229820 PUSH (fors = = "Enter X:8" 
: print 


EIP 00091015 «x3,00091015 


ES 0028 32bit O(FFFFFFI 
CS 0023 22bit 8(FFFFFPI 
$$ 0026 32bit OLFFFFFFI 
OS 0028 32bit OLFFFFFFI 


?ER 
GS 0028 32bit BFFFFFPI 
O 0 LastErr ERROR, SUCCESS 
EFL 6850608216 (NO, NB, NE, A, S 
STO eroty 0.0 


STi eroty 0.0 
ST2 eroty 0.0 


FFFFF 
EE pered HSUCR110. 6R6SEES9 
00086100F | ex3, 00069100F 
000039001 ASCII "Enter X: 


Ex RETURN to ex3. 00681262 


© 
© 







Ez ^W envered 2 


O--o0De 






format = "What you enti% 





图 7.10 OllyDbg : 传递 变量 地 址 给 printf() 


scanf() 执 行 时 ， 我 在 命令 行 窗口 m. 入 ia 的 东西 ， 像 "asdasd".scanf() 
结束 后 eax 变 为 了 0. 也 就 意味 着 有 错误 


CPU - main thread, module ex3 









风电 MSUCR110. ERSSF 1E7 

gx PTR OSs LCUTSUCRI10. pr int F >) 
DWORD PTR SS: CEBP-4) 

ERK 


format = "Enter X18" 
Drintf 








mmmmm 


90001021 «x3, 00061021 
ES O82B S2bit GLFFFFFFFF) 
CS 9823 S2bit C(FFFFFFFF) 
$5 0026 S2bit G(FFFFFFFF) 
DS 062B S2bit GLFFFFFFFF) 
FS Q0$3 S2bit 7EFDOGOQ(FFF 
GS 002E Sbit GLFFFFFFFF) 


LastErr ERROR, SUCCESS (000 
EFL 00000206 (MO,NB,HE,R, NS, PE, 


STO eroty 0.0 
STi eroty 0.0 
$T2 eroty 0.0 


ex3. 00093010 
PTR OS: [CUITSUCRIT10. pr int >? 


= "Vou entered 7 





or inet 








COHOrnDIO mmm 







= "What you entom 





图 7.11 OllyDbg : scanf() 返回 错误 


我 们 也 可 以 发 现 栈 中 的 本 地 变量 并 没有 发 生 变化 ，scanf() 会 在 那里 写 入 什么 呢 ? 其 
实 什么 都 没有 ， 只 是 返回 了 0. 


现在 让 我 们 尝试 修改 这 个 程序 ， 右 击 EAX， 在 选项 中 有 个 "set to 1"， 这 正 是 我 们 所 
需要 的 。 


现在 EAX 是 1 了 。 ae 接 下 来 的 检查 就 会 按照 我 们 的 需求 执行 ， 然 后 printf() 将 会 打 
印 出 栈 上 的 变量 


按 下 F9 我 们 可 以 在 窗口 中 看 到 : 
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Scanf() 


EN C:\Polygon\ollydbg \ex3.exe 





图 7.9 
实际 上 ，5035128 是 栈 上 一 个 数据 (0x4CD478) 的 十 进 制 表示 ! 


7.3.4 MSVC: x86 + Hlew 


这 也 是 一 个 关于 可 执行 文件 patch 的 简单 例子 ， 我 们 之 前 尝试 patch 程 序 ， 所 以 程序 
总 是 打印 数字 ， 不 管 我 们 输入 什么 。 


假设 编译 时 并 没有 使 用 /MD, 我 们 可 以 在 .text 开 始 的 地 方 找到 main() 函 数 ， 现 在 让 我 
们 在 Hiew 中 打开 执行 文件 。 找 到 .text 的 开始 处 (enter,F8,F6,enter,enter) 


我 们 可 以 看 到 这 个 : 


.00401000: 

00401001: 

. 00401003: ec) 
.986461864: BEB4E jeBee 
.004010909: 

.0040100F: 83C404 

.00401012: 8D45FC 

.00401015; 50 E 

.00401016: 68 00040300C --E 
.0040101B: FF15 ! 
.00401021: 83C488 esp,8 
.00401024: 83F801 CERTE! 
.00401027: 7514 z .000401030 -- 
00401029: 8B4DFC v ecx, 
.0040102C: 51 s ecx 
.0040102D: 68 000403018 ;'You entered Xd..." --E 
.00401032: FF15 

.00401038: 83C408 esp,8 
.0040103B: EBOE jmps -000401046 --E 
- 08401030: 68 000403024 ; ‘What you entered? Huh?’ --E 
.00401042: FF15 

,96461648: 83C404 

.0040104B: 33C@ 

.0040104D: 88ES 

.0040104F: 5D 

.00401050: C3 

.00401051: B84D5A0000 











A 7.12:main() 24 4x 
Hiew 找到 ASCIIZ 字符 串 并 显示 ， 引 入 的 函数 名 字 也 同样 显示 。 


移动 光标 到 地 址 .00401027 (这 里 是 JNZ 指令 , 我 们 需要 绕 过 它 ), 按 下 F3, 然后 输 
入 “9090” (表示 两 个 NOP): 








图 7.13:Hiew 用 两 个 NOP 替 换 JNZ 


然后 按 下 Fg(update), 现 在 文件 保存 在 了 磁盘 中 ， 它 将 会 按照 我 们 希望 的 那样 执行 。 


两 个 NOP 可 能 看 起 来 并 不 是 那么 完美 ， 另 一 个 方法 是 把 0 写 在 第 二 处 〈jump 
offset) ,所 以 JNZ 就 可 以 总 是 跳 到 下 一 个 指令 了 。 


另外 我 们 也 可 以 这 样 做 : 蔡 换 第 一 个 字 节 为 EB， 这 样 就 不 修改 第 二 处 (jump 
offset) ， 这 样 就 会 无 条 件 跳 转 ， 不 管 我 们 输入 什么 ， 错 误 信 息 都 可 以 打印 出 来 
了 o 

7.3.5 MSVC: x64 


为 我 们 这 里 处 理 的 是 无 整 型 变量 。 在 X86-64 中 还 是 32bit, 我 们 可 以 看 出 32bit 的 寄 
存 器 (前 组 为 E) 在 这 种 情况 下 是 怎样 使 用 的 ,然而 64bit 的 寄存 也 有 被 使 用 (前 缓 民 ) 
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_DATA 
$SG2924 
$SG2926 
$SG2927 
$SG2929 
_DATA 


_ TEXT 
x$ = 32 
main 
$LN5: 


26d pe 


$LN2@main: 


h?” 


$LN1@main: 


main 
_TEXT 
END 


7.3.6 ARM 


SEGMENT 

DB "Enter X:', QaH, OOH 

DB ‘%d’, OOH 

DB ‘You entered %d...’, O0aH, OOH 
DB ‘What you entered? Huh?', OaH, 
ENDS 

SEGMENT 

PROC 

sub rsp, 56 

lea rcx, OFFSET FLAT:$SG2924 ; 
call printf 

lea rdx, QWORD PTR x$[rsp] 

lea rcx, OFFSET FLAT:$SG2926 ; 
call scanf 

cmp eax, 1 

jne SHORT $LN2@main 

mov edx, DWORD PTR x$[rsp] 

lea rcx, OFFSET FLAT:$SG2927 ; 
call printf 

jmp SHORT $LNi1Qmain 


lea rcx, OFFSET FLAT:$SG2929 ; ‘What 
call printf 


; return 0 


xor eax, eax 
add rsp, 56 
ret 0 

ENDP 

ENDS 


ARM:Optimizing Keil 6/2013 (Thumb mode) 


00H 


‘Enter X:’ 


“9%6d 


“You entered 


you entered? Hu 


var 8 = -8 


PUSH (R3, LR} 


ADR RO, aEnterX ; "Enter X: 
BL _ 2printf 
MOV R1, SP 
ADR RO, aD ; "eg" 
BL . O0scanf 
CMP RO, #1 
BEQ loc 1E 
ADR RO, aWhatYouEntered ; "What you entered? Huh 
2 
BL _ 2printf 
loc_1A ; CODE XREF: main+26 
MOVS RO, #0 
POP {R3, PC} 
loc_1E ; CODE XREF: main+12 
LDR R1, [SP,#8+var_8] 
ADR RO, aYouEnteredD ; "You entered %d... 
BL _ 2printf 
B loc_1A 


这 里 有 两 个 新 指令 CMP 和 BEQ. 
CMP 和 x86 指 令 中 的 相似 ， 它 会 用 一 个 参数 减 去 另外 一 个 参数 然后 保存 flag. 


BEQ 是 跳 向 另 一 处 地 址 ， 如 果 数 相等 就 会 跳 ， 如 果 最 后 一 次 比较 结果 为 0， 或 者 Z 
flag 是 1。 和 x86 中 的 JZ 是 一 样 的 。 


其 他 的 都 很 简单 ， 执 行 流程 分 为 两 个 方向 ， 当 R0 被 写 入 0 后 ， 两 个 方向 则 会 合并 ， 
1k 3 By 数 的 返回 值 ， 然 后 函数 结 来 。 


ARM64 


.LCO: 
.string "Enter X:" 


PIE TP: 

.String "%d" 
ECG 2e: 

.string "You entered %d...\n" 
TECE 

.String "what you entered? Huh?" 
f6: 


; save FP and LR in stack frame: 
stp x29, x30, [sp, -32]! 
; set stack frame (FP=SP) 
add x29, sp, 0 
; load pointer to the "Enter X:" string: 
adrp x0, .LCO 
add x0, x0, :1012:.LCO 
bl puts 
; load pointer to the "\%d" string': 
adrp xO, .LC1 
add x0, x0, :1012:.LC1 
; calculate address of x variable in the local stack 
add x1, x29, 28 
bl _ isoc99 scanf 
; Scanf() returned result in WO. 
; check it: 
cmp wO, 1 
; BNE is Branch if Not Equal 
; so if WO<>0, jump to L2 will be occurred 
bne .L2 
; at this moment WO-1, meaning no error 
; load x value from the local stack 
ldr wi, [x29,28] 
; load pointer to the "You entered \%d...\n" string: 
adrp XO E62 
add x0, x0, :1012:.LC2 
bl printf 
; skip the code, which print the "What you entered? Huh?" string 


b ES 

(LAE 

; load pointer to the "What you entered? Huh?" string: 
adrp xS 
add x0, x0, :1012:.LC3 
bl puts 

MES: 

; .return 0 
mov wO, © 

; restore FP and LR: 
ldp x29, x30, [sp], 32 
ret 


7.3.7 MIPS 


:004006A0 main: 
:004006A0 
:004006A0 var_18 
:004006A0 var_10 
:004006A0 var 4 
:004006A0 
:004006A0 
:004006A4 
:004006A8 
:004006AC 
:004006B0 
:004006B4 
:004006B8 
:004006BC 
:004006C0 


.text 
.text 
.text 
.text 
.text 
.text 
.text 
.text 
.text 
.text 
.text 
.text 
.text 
.text 
.text 
veo 

. text 
. text 
. text 
. text 


:004006C4 
:004006C8 
:004006CC 
:004006D0 

. text :004006D4 

. text :004006D8 
branch delay slot 
. text :004006DC 

. text :004006E0 

. text :004006E4 

. text :004006E8 
delay slot, NOP 
. text :004006EC 

. text :004006F0 

. text: 004006F4 

. text: 004006F8 
What you entered? Huh?" 
. text : 004006FC 

. text: 00400700 

. text: 00400704 

. text: 00400708 


. text 
. text 
. text 
. text 


:0040070C loc_40070C: 
:0040070C 
:00400710 
:00400714 
. text :00400718 
. text :0040071C 
You entered %d.. 
. text :00400720 
. text :00400724 
. text :00400728 
. text :0040072C 


ANIM 


-0x18 
- 0x10 


1 
I; 


= 
c 
H- 


addiu 


Fwo 请 
ts) E: 


lui 
jalr 


= 
o 


= 
= 


lui 


m 
om 


jalr 
addiu 


li 
lw 
beq 
or 


la 
lui 
jalr 
la 


lw 
move 
we 
addiu 


la 
lw 
lui 
jalr 
la 


lw 
move 
jr 
addiu 


$gp, 
$sp, 
$gp, 
$ra, 
$gp, 
$t9, 
$a0, 
$t9 

$a0, 


$gp, 
$a0, 
$t9, 
$a0, 
$t9 

$a1, 


$v1, 
$gp, 
$vO, 
$at, 


$t9, 
$a0, 
$t9 

$a0, 


$ra, 
$vO, 
$ra 

$sp, 


$t9, 
$a1, 
$a0, 
$t9 

$a0, 


$ra, 
$vO, 
$ra 

$sp, 


0x42 
-0x28 
0x418960 


Ox28+var_4($sp) 
Ox28+var_18($sp) 
puts 

0x40 

; puts 

aEnterX # "Enter 


0x28*var 18($sp) 
0x40 

. isoc99 scanf 

aD # "og" 
; ..isoc99 scanf 
$sp, Ox28*var 10 # 


1 

Ox28+var_18($sp) 
$v1, loc 40070C 
$zero # branch 


puts 
0x40 
; puts 
awhatYouEntered # " 


Ox28+var_4($sp) 
$zero 


0x28 


printf 

0x28*var 10($sp) 
0x40 

; printf 
aYouEnteredD 5 " 
Ox28+var_4($sp) 
$zero 


0x28 


scanf() 在 $V0 寄 存 器 中 返回 结果 。 通 过 对 比 $V0 和 $V1 的 值 检 查 地 址 0X004006E4 ° 
BEQ 表示 “Branch Equal”。 如 果 值 相等 (i.e., success), 程序 执行 将 跳 至 
0x0040070C。 


7.3.8 练习 


我 们 可 以 看 见 ,JNE/JNZ 指令 可 以 很 容易 的 被 JE/JZ 指令 蔡 代 ， 反 之 亦 然 。 但 是 之 
后 基础 区 块 也 被 交换 了 。 尝试 在 练习 中 做 做 吧 。 


7.4 练习 


e http://challenges.re/53 


BA 


访问 传递 参数 


现在 我 们 来 看 函数 调用 者 通过 栈 把 参数 传递 到 被 调用 函数 。 被 调用 函数 是 如 何 访问 
这 些 参数 呢 ? 


#include «stdio.h» 
int f (int a, int b, int c) 


{ 
return a*b+c; 
}; 
int main() 
{ 


printf ("%d 
", f(1, 2, 3)); 

return 0; 
u 


8.1 X86 


8.1.1 MSVC 


如 下 为 相应 的 反 汇 编 代 码 (MSVC 2010 Express) 
Listing 8.2 MSVC 2010 Express 


_ TEXT SEGMENT 
_a$ = 8 ; Size 
_b$ = 12 ; Size 
_c$ = 16 ; Size 
Ef PROC 

push ebp 

mov ebp, esp 

mov eax, DWORD PTR _a$[ebp] 

imul eax, DWORD PTR _b$[ebp] 

add eax, DWORD PTR _c$[ebp] 

pop ebp 

ret © 

di ENDP 


Wout tl 
I; 


_main PROC 
push ebp 
mov ebp, esp 
push 3 ; 3rd argument 
push 2 ; 2nd argument 
push 1 ; 1st argument 
call _f 
add esp, 12 
push eax 
push OFFSET $SG2463 ; '*d', QaH, OOH 
call _printf 
add esp, 8 
; return 0 
xor eax, eax 
pop ebp 
ret 0 
_main ENDP 


我 们 可 以 看 到 函数 main() 中 3 个 数字 被 压 栈 ， 然 后 函数 f(int, int, int) 被 调 有 用。 函数 f() 
内 部 访问 参数 时 使 用 了 像 a$-8 的 宏 ， 同 样 ， 在 函数 内 部 访问 局 部 变量 也 使 用 了 类 
似 的 形式 ， 不 同 的 是 访问 参数 时 偏 移 值 (为 正 值 ) 。 因 此 EBP 寄 存 器 的 值 加 上 宏 
_a$ 的 值 指向 压 栈 参 数 。 


_a$[ebp] 的 值 被 存储 在 寄存 器 eax 中 ，IMUL 指 令 执行 后 ， eax 的 值 为 eax 与  b$[ebp] 
的 乘积 ， 然 后 eax 与 _c$[ebp] 的 值 相 加 并 将 和 放 入 eax 寄 存 器 中 ,之 后 返回 eax 的 值 。 
返回 值 作 为 printf() 的 参数 。 


8.1.2 MSVC+OllyDbg 


我 们 在 OllyDbg 中 观察 ， 跟 踪 到 函数 f() 使 用 第 一 个 参数 的 位 置 ， 可 以 看 到 寄存 器 
EBP 指向 栈 底 ， 图 中 使 用 红色 箭头 标识 。 栈 帧 中 第 一 个 被 保存 的 是 EBP 的 值 ， 第 二 
个 是 返回 地 址 (RA) ， 第 三 个 是 参数 1， 接 下 来 是 参数 2， 以 此 类 推 。 因 此 ， 当 我 
们 访问 第 一 个 参数 时 EBP 应 该 加 8 (2 个 32-bit 字 节 宽 度 ) 。 


访问 实 参 


jude 


PU - main thread, me 


Ej- 
Y 
t 
M 
Y 


5 orase-oo B bi 


E rU 


coe 


suet, d 
3338 
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c 
8 
à 
I 


RETURN to ex.009E£1236 fron e 


| [:9:08228923928: 
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Figure 8.1: OllyDbg: 函数 f() 内 部 


8.1.3 GCC 


使 用 GCC4.4.1 编 译 后 在 IDA 中 查看 


Listing 8.3: GCC 4.4.1 


106 


public f 


f proc near 
arg_0 = dword ptr 8 
arg 4 - dword ptr OCh 
arg 8 - dword ptr 10h 
push ebp 
mov ebp, esp 
mov eax, [ebp+arg 0] ; 1st argument 
imul eax, [ebp+arg 4] ; 2nd argument 
add eax, [ebp*arg 8] ; 3rd argument 
pop ebp 
retn 
f endp 
public main 
main proc near 
var_10 = dword ptr -10h 
var C = dword ptr -Och 
var 8 - dword ptr -8 
push ebp 
mov ebp, esp 
and esp, OFFFFFFFOh 
sub esp, 10h 
mov [esp*10h-var 8], 3 ; 3rd argument 
mov [esp*10h-var C], 2 ; 2nd argument 
mov [esp*10h-var 10], 1 ; ist argument 
call f 
mov edx, offset aD ; "%d 
mov [esp*10h-var C], eax 
mov [esp*10h-var 10], edx 
call _printf 
mov eax, 0 
leave 
retn 
main endp 


几乎 相同 的 结果 。 


执行 两 个 函数 后 栈 指 针 ESP 并 没有 显示 恢复 ， 因 为 倒数 第 二 个 指令 
LEAVE (B.6.2) 会 自动 恢复 栈 指 针 。 


8.2 X64 


X86-64 架 构 下 有 点 不 同 ， 函 数 参 数 (4 或 6) 使 用 寄存 器 传递 ， 被 调用 函数 通过 访问 
寄存 器 来 访问 传递 进来 的 参数 。 


8.2.1 MSVC 


MSVC 优 化 后 : 
Listing 8.4: MSVC 2012 /Ox x64 


$SG2997 DB "%d’, OaH, OOH 
main PROC 
sub rsp, 40 
mov edx, 2 
lea r8d, QWORD PTR [rdx+1] ; R8D=3 
lea ecx, QWORD PTR [rdx-1] ; ECX=1 
call f 
lea rcx, OFFSET FLAT:$SG2997 ; '9*d' 
mov edx, eax 
call printf 
xor eax, eax 
add rsp, 40 
ret 0 
main ENDP 
f PROC 


; ECX - 1st argument 
; EDX - 2nd argument 
; R8D - 3rd argument 


imul ecx, edx 
lea eax, DWORD PTR [r8+rcx] 
ret 0 

f ENDP 


我 们 可 以 看 到 函数 f) 直 接 使 用 寄存 器 来 操作 参数 ，LEA 指 令 用 来 做 加 法 ， 编 译 器 认 
为 使 用 LEA 比 使 用 ADD 指 令 要 更 快 。 在 mian() 中 也 使 用 了 LEA 指 令 ， 编 译 器 认为 使 
用 LEA 比 使 用 MOV 指 令 效 率 更 高 。 


我 们 来 看 看 MSVC 没 有 优化 的 情况 : 
Listing 8.5: MSVC 2012 x64 


f proc near 


; shadow space: 


arg 0 - dword ptr 8 
arg 8 - dword ptr 10h 
arg 10 - dword ptr 18h 
; ECX - 1st argument 
; EDX - 2nd argument 
; R8D - 3rd argument 
mov [rsp*arg 10], r8d 
mov [rsp*arg 8], edx 
mov [rsp*arg 0], ecx 
mov eax, [rsp-*arg 0] 
imul eax, [rsp-*arg 8] 
add eax, [rsp-*arg. 10] 
retn 
f endp 
main proc near 
sub rsp, 28h 
mov r8d, 3 ; 3rd argument 
mov edx, 2 ; 2nd argument 
mov ecx, 1 ; 1st argument 
call f 
mov edx, eax 
lea rcx, $SG2931 ; "%d 
call printf 
; return 0 
xor eax, eax 
add rsp, 28h 
retn 
main endp 


这 里 从 寄存 器 传递 进来 的 3 个 参数 因为 某 种 情况 又 被 保存 到 栈 里 。 

的 “shadow space"2 : 每 个 Win64 通 常 (不 是 必需 d ) 会 保存 所 有 4 个 寄存 器 的 值 。 这 
样 做 由 两 个 原因 : 1) 为 输入 参数 PRE EBE (即使 是 4 个 ) 所 以 要 通 
过 堆栈 来 访问 ; 2) 每 次 中 断 下 来 调试 器 总 是 能 够 定位 函数 参数 3 。 


调用 者 负责 在 栈 中 分 配 “shadow space" » 
8.2.2 GCC 


GCC 优 化 后 的 代码 : 
Listing 8.6: GCC 4.4.6 -O3 x64 


; EDI - 1st argument 
; ESI - 2nd argument 
; EDX - 3rd argument 


imul esi, edi 
lea eax, [rdx-*rsi] 
ret 
main: 

sub rsp, 8 
mov edx, 3 
mov esi, 2 
mov edi, 1 
call f 
mov edi, OFFSET FLAT:.LCO ; "96d 
mov esi, eax 
xor eax, eax ; number of vector registers passed 
call printf 
xor eax, eax 
add rsp, 8 
ret 

GCC 无 优化 代码 : 


Listing 8.7: GCC 4.4.6 x64 


; EDI - 1st argument 
; ESI - 2nd argument 
; EDX - 3rd argument 


push 
mov 
mov 
mov 
mov 
mov 
imul 
add 
leave 
ret 


main: 
push 
mov 
mov 
mov 
mov 
call 
mov 
mov 


mov 
mov 
mov 
call 
mov 
leave 
ret 


System V *NIX [21] 没 有 "shadow space”， 但 被 调用 者 可 能 会 保存 参数 ， 这 也 


rbp 
rbp, 


rsp 


DWORD PTR [rbp-4], edi 
DWORD PTR [rbp-8], esi 
DWORD PTR [rbp-12], edx 


eax, 
eax, 
eax, 


esi, 
rdi, 
eax, 


DWORD PTR [rbp-4] 
DWORD PTR [rbp-8] 
DWORD PTR [rbp-12] 


rsp 


eax 
OFFSET FLAT:.LCO ; 


edx 
rax 


9 ; number of vector registers passed 


printf 


eax, 


成 寄存 器 短缺 的 原因 。 


0 


8.2.3 GCC: uint64 t instead int 
我 们 例子 使 用 的 是 32 位 int， 寄 存 器 也 为 32 位 寄存 器 
为 处 理 64 位 数值 内 部 会 自动 调整 为 64 位 寄存 器 : 


"96d 


(前 级 为 E-) 


o 


是 


造 


Zinclude «stdio.h» 
Zinclude <stdint.h> 


uint64 t f (uint64 t a, uint64 t b, uint64 t c) 


d 


return a*b+c; 


}; 
int main() 


( 


printf ("%lld 
", f(0x1122334455667788,0x1111111122222222, 0x3333333344444444) ) ; 


return 0; 


Listing 8.8: GCC 4.4.6 -O3 x64 


f proc 
imul 
lea 
retn 

f endp 


main proc 
sub 
mov 
mov 
mov 
call 
mov 


mov 
xor 
call 
xor 
add 
retn 
main endp 


near 
psam 
rax, 


rsi, 
eax, 


rdi 
[rdx+rsi] 


8 

3333333344444444h ; 3rd argument 
1111111122222222h ; 2nd argument 
1122334455667788h ; íst argument 


offset format ; "%lld 


rax 
eax ; number of vector registers passed 


_printf 


eax, 
rsp, 


eax 
8 


va 


代码 非常 相似 ， 只 是 使 用 了 64 位 寄存 器 (WAAR) 。 


8.3 ARM 


8.3.1 未 优化 的 Keil + ARM mode 


.text:000000A4 00 30 AO E1 MOV R3, RO 


.text:000000A8 93 21 20 EO MLA RO, R3, R1, R2 
.text:000000AC 1E FF 2F E1 BX LR 

. text :000000B0 main 

.text:000000BO 10 40 2D E9 STMFD SP!, {R4,LR} 
.text:000000B4 03 20 AO E3 MOV R2, #3 
.text:000000B8 02 10 AO ES3 MOV R1, Z2 
.text:000000BC 01 00 AO E3 MOV RO, #1 
.text:000000CO F7 FF FF EB BL f 
.text:000000C4 00 40 AO E1 MOV RA, RO 
.text:000000C8 04 10 AO E1 MOV R1, R4 
.text:000000CC 5A OF 8F E2 ADR RO, aD © ; "%d 
.text:000000DO E3 18 00 EB BL _ 2printf 
.text:000000D4 00 OO AO E3 MOV RO, #0 
.text:000000D8 10 80 BD E8 LDMFD SP!, {R4,PC} 


main() 函 数 里 调用 了 另外 两 个 函数 ，3 个 值 被 传递 到 f(); 
正如 前 面 提 到 的 ，ARM 通 常 使 用 前 四 个 寄存 器 (RO-RA) 传递 前 四 个 值 。 
f() 函 数 使 用 了 前 三 个 寄存 器 (RO-R2) 作为 参数 。 


MLA (Multiply Accumulate) 指 令 将 R3 寄 存 器 和 R1 寄 存 器 的 值 相 乘 ， 然 后 再 将 乘积 与 
R2 寄 存 器 的 值 相 加 将 结果 存 入 RO， 函 数 返回 RO。 


一 条 指令 完成 乘法 和 加 法 4， 如 果 不 包 括 SIMD 新 的 FMA 指 令 5， 通 常 X86 下 没有 这 样 
的 指令 。 


第 一 条 指令 MOV R3,R0， 看 起 来 宛 余 是 因为 该 代码 是 非 优化 的 。 


BX 指令 返回 到 LR 寄存 器 存储 的 地 址 ， 处 理 器 根据 状态 模式 从 Thumb 状 态 转换 到 
ARM 状 态 ， 或 者 反之 。 函 数 f() 可 以 被 ARM 代 码 或 者 Thumb 代 码 调用 ， 如 果 是 
Thumb 代 码 调 用 BX 将 返回 到 调用 函数 并 切换 到 Thumb 模 式 ， 或 者 反之 。 


8.3.2 Optimizing Keil + ARM mode 


. text : 00000098 f 
.text:00000098 91 20 20 EO MLA RO, R1, RO, R2 
.text:0000009C 1E FF 2F E1 BX LR 


这 里 f() 编 译 时 使 用 完全 优化 模式 (-O3),MOV 指 令 被 优化 ， 现 在 MLA 使 用 所 有 输入 寄 
存 器 并 将 结果 置 入 RO 寄存 器 。 


8.3.3 Optimizing Keil + thumb mode 


.text:0000005E 48 43 MULS RO, R1 
.text:00000060 80 18 ADDS RO, RO, R2 
.text:00000062 70 47 BX LR 


Thumb 模 式 下 没有 MLA 指 令 ， 编 译 器 做 了 两 次 间接 处 理 ，MULS 指 令 使 RO 寄 存 器 的 
4& S RASTA R 9894838 de JE ERA ARO » ADDS48 4E ROS R29 4& 18 Je HS ER 
存 入 RO。 


8.3.4 ARM64 
Optimizing GCC (Linaro) 4.9 


Non-optimizing GCC (Linaro) 4.9 


8.4 MIPS 


ILE 


一 个 或 者 多 个 字 的 返回 值 


X86 架构 下 通常 返回 EAX 寄 存 器 的 值 ， > WRAP SF char * N ] 只 使 用 EAX 的 低 8 位 
AL。 如 果 返 回 float 类 型 则 使 用 FPU 寄 存 器 $ST(0) ° ARMAAA T 38 通常 返回 寄存 器 RO 。 


9.1 ŽA M HA 8 3R v1 fü 3R SI void 


1& 4e main() $ Zi 44) 38 fi X void s A inte & A ? 
通常 启动 函数 调用 main() 为 : 

push envp 

push argv 

push argc 

call main 


push eax 
call exit 


换 句 话说 为 
exit(main(argc,argv,envp) ); 


如 果 main() 声 明 为 void 类 型 并 且 函 数 没 有 明确 返回 状态 值 ， 通 常 在 main() 结 束 时 
EAX 寄存 器 的 值 被 返回 ， 然 后 作为 exit() 的 参数 。 大 多 数 情况 下 函数 返回 的 是 随机 
值 。 这 种 情况 下 程序 的 退出 代码 为 伪 随 机 的 。 


我 们 看 一 个 实例 ， 注 意 main() 是 void 类 型 : 
#include <stdio.h> 


void main() 


printf ("Hello, world!"); 


我 们 在 linux 下 编译 。 


GCC 4.8.14 f£ lputs)4 print) (看 前 面 章节 2.3.3) ， 没 有 关系 ， 因 为 puts() 会 
返回 打印 的 字符 数 ， 8L IT printf) 。 请 注意 ，main() 结 束 时 EAX 寄存 器 的 值 是 非 0 
的 ， 这 意味 着 main() 结 束 时 保留 puts() 返 回 时 EAX 的 值 。 


Listing 9.1: GCC 4.8.1 


.LCO: 
.string "Hello, world!" 


main: 
push ebp 
mov ebp, esp 
and esp, -16 
sub esp, 16 
mov DWORD PTR [esp], OFFSET FLAT: 
call puts 
leave 
ret 


我 们 写 bash 脚 本 来 看 退出 状态 : 
Listing 9.2: tst.sh 
#!/bin/sh 


./hello world 
echo $? 


$ tst.sh 
Hello, world! 
14 


14 为 打印 的 字符 数 。 


9.2 如 果 我 们 不 使 用 返回 值 会 发 生 什 么 


9.3 返回 一 个 结构 体 


回 到 返回 值 是 EAX 寄存 器 值 的 事实 ， 这 也 就 是 为 什么 老 的 C 编 译 器 不 能 够 创建 返回 
信息 无 法 拟 合 到 一 个 寄存 器 〈 通 常 是 int 型 ) 的 函数 。 如 果 必 须 这样 ， 应 该 通过 指针 
来 传递 。 现 在 可 以 这 样 ， 比 如 返回 整个 结构 体 ， 这 种 情况 应 该 避免 。 如 果 必 须要 返 
回 大 的 结构 体 ， 调 用 者 必须 开辟 存储 空间 ， 并 通过 第 一 个 参数 传递 指针 ， 整 个 过 程 
对 程序 是 透明 的 。 像 手动 通过 第 一 个 参数 传递 指针 一 样 ， 只 是 编译 器 隐藏 了 这 个 过 


程 。 


小 例子 : 


.LCO 


< 


Struct S 


i H 
int a; 
int b; 
int C; 
H 
struct s get some values (int a) 
X 
struct s rt; 
rt.a=at1; 
rt.b=at2; 
rt.c=at3; 
return rt; 
J; 


.. 我 们 可 以 得 到 (MSVC 2010 /Ox): 


$T3853 = 8 T size = 4 
_a$ = 12 size uM 
?get some valuesQQYA?AUSQOHQZ PROC ; get some values 
mov ecx, DWORD PTR _a$[esp-4] 
mov eax, DWORD PTR $T3853[esp-4] 
lea edx, DWORD PTR [ecx+1] 
mov DWORD PTR [eax], edx 
lea edx, DWORD PTR [ecx+2] 
add Boc 
mov DWORD PTR [eax+4], edx 
mov DWORD PTR [eax+8], ecx 
ret 0 
?get some valuesQQYA?AUSQOHQZ ENDP ; get some values 


内 部 变量 传递 指针 到 结构 体 的 宏 为 $T3853 » 
这 个 例子 可 以 用 C99 语 言 扩 展 来 重 写 : 


struct s 

i H 
int a; 
int b; 
THE C 


struct s get some values (int a) 


{ 
15: 


return (struct s)(.a-a*1, .b=a+2, .c=a+3}; 


Listing 9.3: GCC 4.8.1 


.get some values proc near 


ptr to struct - dword ptr 4 

a - dword ptr 8 
mov edx, [esp+al 
mov eax, [esp-*ptr to struct] 
lea ecx, [edx+1] 
mov [eax], ecx 
lea ecx, [edx+2] 
add edx, 3 
mov [eax*4], ecx 
mov [eax*8], edx 
retn 


.get some values endp 


BATT AAS > BRA CURL] A P TA 89 28 E RUE 48 Fe ALR A E fl 
缺陷 。 


48 4r 38 38 A TE 9 GR Fl MÀ (recall scanf() case (6)). 例 如 ， 当 函数 返回 两 个 值 时 。 
10.1 Global variables example 


#include <stdio.h> 
void f1 (int x, int y, int *sum, int “product ) 
{ 

*sum-x-ty; 

*product-x*y; 


3 
int sum, product; 
void main() 


f1(123, 456, &sum, &product); 
printf ("sum=%d, product=%d", sum, product); 


编译 后 
Listing 10.1: Optimizing MSVC 2010 (/Ox /ObO) 


COMM product : DWORD 


COMM .. sum: DWORD 
$SG2803 DB "sum=%d, product=%d’, OaH, OOH 
_x$ = 8 ; size = 4 
_y$ = 12 ; size = 4 
_sum$ = 16 ; size = 4 
_product$ = 20 ; size = 4 
e PROC 

mov ecx, DWORD PTR _y$[esp-4] 

mov eax, DWORD PTR x$[esp-4] 

lea edx, DWORD PTR [eaxtecx] 

imul eax, ecx 

mov ecx, DWORD PTR _product$[esp-4] 

push esi 

mov esi, DWORD PTR _sum$[esp] 

mov DWORD PTR [esi], edx 

mov DWORD PTR [ecx], eax 

pop esi 

ret 0 
endi ENDP 
_main PROC 

push OFFSET _product 

push OFFSET _sum 

push 456 ; 000001c8H 

push 123 ; 0000007bH 

call Sod 

mov eax, DWORD PTR product 

mov ecx, DWORD PTR sum 

push eax 

push ecx 

push OFFSET $SG2803 

call DWORD PTR _ imp printf 

add esp, 28 ; 0000001cH 

xor eax, eax 

ret 0 
_main ENDP 


让 我 们 在 OD 中 查看 : 图 9.1。 首先 全 局 变量 地 址 被 传递 进 f1()。 我 们 在 堆栈 元 素 点 
击 “ 数 据 窗 口 跟随 "， 可 以 看 到 数据 段 上 分 配 两 个 变量 的 空间 。 这 些 变 量 被 置 0， 因 为 
未 初始 化 数据 (BSS1) 在 程序 运行 之 前 被 清理 为 0。 这些 变 量 属于 数据 段 ， 我 们 按 
Alt+M 可 以 查看 内 存 映射 fig. 9.5 

让 我 们 跟踪 (F7) 到 f1()fig. 9.2. 在 堆栈 中 为 456 (0x1C8) 和 123 (0x7B)， 接 着 是 两 
个 全 局 变量 的 地 址 。 

让 我 们 跟踪 到 f1() 结 尾 ， 可 以 看 到 两 个 全 局 变量 存放 了 计算 结果 。 


现在 两 个 全 局 变量 的 值 被 加 载 到 寄存 器 传递 给 printf(): fig. 10.4. 
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Figure 10.5: OllyDbg: memory map 


10.2 Local variables example 


让 我 们 修改 一 下 例子 : 
Listing 10.2: 局 部 变量 
void main() 
{ 
int sum, product; // now variables are here 
f1(123, 456, &sum, &product); 
printf ("sum=%d, product=%d 
", sum, product); 
}; 
f1() & Zi AX 88 AA PRE o Uli main() N48 JE 1 46 o 
Listing 10.3: Optimizing MSVC 2010 (/Ox /Ob0) 
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_product$ = -8 ; size = 4 

_sum$ = -4 ECOSSE 

. main PROC 

; Line 10 
sub esp, 8 

; Line 13 
lea eax, DWORD PTR _product$[esp+8] 
push eax 
lea ecx, DWORD PTR _sum$[esp+12] 
push ecx 
push 456 ; 000001c8H 
push 123 ; 0000007bH 
call 21. 

; Line 14 
mov edx, DWORD PTR _product$[esp+24 ] 
mov eax, DWORD PTR _sum$[esp+24] 
push edx 
push eax 


push OFFSET $SG2803 
call DWORD PTR __imp_ printf 


; Line 15 
xor eax, eax 
add esp, 36 ; 00000024H 
ret 0 


我 们 在 OD 中 查看 ， 局 部 变量 地 址 在 堆栈 中 是 0x35FCF4 和 0x35FCF8。 我 们 可 以 看 
到 是 如 何 压 栈 的 fig. 10.6. 


f1() 开 始 的 时 候 ， 随 机 栈 地 址 为 0x35FCF4 和 0x35FCF8 fig. 10.7. 
f1() 完 成 时 结果 0xDB18 和 0x243 存 放 在 地 址 0x35FCF4 和 0x35FCF8。 
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Figure 10.8: OllyDbg: f1()finished 


BI RETURN to ptrs a 


10.3 小 结 


f1() 可 以 返回 结果 到 内 存 的 任何 地 方 ， 这 是 指针 的 本 质 和 特性 。 顺 便 提 一 下 ，C++ 引 


用 的 工作 方式 和 这 个 类 似 。 详 情 阅读 相关 内 容 (33) 
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第 十 一 章 


GOTO 操 作 符 


时下 三 学 
条 件 跳 转 


12.1 简单 的 例子 
现在 我 们 来 了 解 条 件 跳 转 。 


Zinclude «stdio.h» 


void f signed (int a, int b) 


if (a»b) 

printf ("a>b"); 
if (a==b) 

printf ("a==b"); 
if (a<b) 


printf ("a<b"); 
F? 


void f_unsigned (unsigned int a, unsigned int b) 


if (a>b) 
printf ("a>b"); 
if (a==b) 
printf ("a==b"); 
if (a<b) 
printf ("a<b"); 
J; 
int main() 
{ 
f_signed(1, 2); 
f_unsigned(1, 2); 
return 0; 
J; 
12.1.1 x86 
x86 + MSVC 


f_signed() 3x: 
Listing 12.1: 非 优化 MSVC 2010 


_a$ = 8 


_b$ = 12 
_f_signed PROC 
push ebp 
mov ebp, esp 
mov eax, DWORD PTR _a$[ebp] 
cmp eax, DWORD PTR _b$[ebp] 
jle SHORT $LN3Qf signed 
push OFFSET $SG737 ; 'a»b' 
call _printf 
add esp, 4 
$LN3@f_signed: 
mov ecx, DWORD PTR _a$[ebp] 
cmp ecx, DWORD PTR _b$[ebp] 
jne SHORT $LN2@f_signed 
push OFFSET $SG739 ; 'a--b' 
call _printf 
add esp, 4 
$LN20f signed: 
mov edx, DWORD PTR _a$[ebp] 
cmp edx, DWORD PTR _b$[ebp] 
jge SHORT $LN4@f_signed 
push OFFSET $SG741 ; 'a<b’ 
call _printf 
add esp, 4 
$LNAQf signed: 
pop ebp 
ret 0 


f signed ENDP 


第 一 个 指令 JLE 意 味 如 果 小 于 等 于 则 跳 转 。 换 名 话说 ， 第 二 个 操作 数 大 于 或 者 等 于 
第 一 个 操作 数 ， 控 制 流 将 传递 到 指定 地 址 或 者 标签 。 否 则 (第 二 个 操作 数 小 于 第 一 
个 操作 数 ) 第 一 个 printf() 将 被 调用 。 第 二 个 检测 JNE : 如 果 不 相等 则 跳 转 。 如 果 两 
个 操作 数 相等 控制 流 则 不 变 。 第 三 个 检测 JGE : 大 于 等 于 跳 转 ， 当 第 一 个 操作 数 大 
于 或 者 等 于 第 二 个 操作 数 时 跳 转 。 如 果 三 种 情况 都 没有 发 生 则 无 printf() 被 调用 ， 事 
实 上 ， 如 果 没 有 特殊 干预 ， 这 种 情况 几乎 不 会 发 生 。 


f unsigned(): Zt RW > A JBETSJAE IX T JLETeJGE » R1 RA f unsigned() 
函数 


Listing 12.2: GCC 


_a$ = 8 MESI 
_b$ = 12 ; size = 4 
_f_unsigned PROC 
push ebp 
mov ebp, esp 
mov eax, DWORD PTR  a$[ebp] 
cmp eax, DWORD PTR _b$[ebp] 
jbe SHORT $LN3@f_unsigned 
push OFFSET $SG2761 ; 'a»b' 
call _printf 
add esp, 4 
$LN3@f_unsigned: 
mov ecx, DWORD PTR _a$[ebp] 
cmp ecx, DWORD PTR _b$[ebp] 
jne SHORT $LN2@f_unsigned 
push OFFSET $SG2763 ; 'a--b' 
call _printf 
add esp, 4 
$LN2@f_unsigned: 
mov edx, DWORD PTR _a$[ebp] 
cmp edx, DWORD PTR _b$[ebp] 
jae SHORT $LN4@f_unsigned 
push OFFSET $SG2765 ; 'a«b' 
call _printf 
add esp, 4 
$LNAQf unsigned: 
pop ebp 
ret 0 
f unsigned ENDP 


几乎 是 相同 的 ， 不 同 的 是 : JBE- 小 于 等 于 跳 转 和 JAE- 大 于 等 于 跳 转 。 这些 指令 
(JA/JAE/JBE/JBE) 不 同 于 JG/JGE/JL/JLE， 它 们 使 用 无 符号 值 。 


我 们 也 可 以 看 到 有 符号 值 的 表示 (35)。 因 此 我 们 看 JG/JL 代 替 JA/JBE 的 用 法 或 者 相 
反 ， 我 们 几乎 可 以 确定 变量 的 有 符号 或 者 无 符号 类 型 。 


main() à Zt 2E p HA 3159 AS : 
Listing 12.3: main() 


main PROC 


push ebp 
mov ebp, esp 
push 2 
push 1 
call .f signed 
add esp, 8 
push 2 
push 1 
call .f unsigned 
add esp, 8 
xor eax, eax 
pop ebp 
ret 0 

_main ENDP 


10.1.2 x86 + MSVC + OllyDbg 


A14 OD € f, TEPU T SCÉ Mos ES o KAMF_unsigned() & 47-48 » CMPAAST 
了 三 次 ， 每 次 的 参数 都 相同 ， 所 以 标志 位 也 相同 。 


第 一 次 比较 的 结果 : fig. 12.1. 标 志 位 : C=1, P=1, A=1, Z=0, S=1, T=0, D=0, O=0. 
标志 位 名 称 为 OD 对 其 的 简称 。 


当 CF=1 or ZF=1 时 JBE 将 被 触发 ， 此 时 将 跳 转 。 
接 下 来 的 条 件 跳 转 : fig. 12.2. 当 ZF=0 (zero flag) 时 JNZ 则 被 触发 


第 三 个 条 件 跳 转 : fig. 12.3. 我 们 可 以 发 现 14 当 CF=0 (carry flag) 时 ，JNB 将 被 触发 。 
在 该 例 中 条 件 不 为 申 ， 所 以 第 三 个 printf() 将 被 执行 。 
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Figure 12.1: OllyDbg: f unsigned(): 第 一 个 条 件 跳 转 


条 件 转 跳 







7.1.0138106E£ 


ES 0028 32bit O(FFFFF 
CS 0023 32bit OG(FFFFF 
SS 0028 S2bit G(FFFFF 
Ds B 32bit GtFFFFF 


TEFDOGE 
GS 0026 S2bit O(FFFFF 
LastErr ERROR SUCCES: 


71.013810 


Zbit LFF 
S2bit OtFF 
S2bit LFF 
B 32bit OFF 
32bit 7EFD 
Zbit OtFF 


ERROR, SUCC 


‘nn D NE O 





Figure 12.3: OllyDbg: f. unsigned(): 第 三 个 条 件 跳 转 


现在 我 们 在 OD 中 看 f_signed() 辑 数 使 用 有 符号 值 。 
可 以 看 到 标志 寄存 器 : C=1, P=1, A=1, Z=0, S=1, T=0, D=0, O20. 


第 一 种 条 件 跳 转 JLE 将 被 触发 fig. 12.4. 我 们 可 以 发 现 14， 当 ZF=1 or SFxOF。 该 例 


中 SFxOF， 所 以 跳 转 将 被 触发 。 
下 一 个 条 件 跳 转 将 被 触发 : 如 果 ZF=0 (zero flag): fig. 12.5. 


第 三 个 条 件 跳 转 将 不 会 被 触发 ， 因 为 仅 有 SF=OF， 该 例 中 不 为 趴 :fig. 12.6. 
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Figure 12.4: OllyDbg: f. signed(): 第 一 个 条 件 跳 转 
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Figure 12.5: OllyDbg: f. signed(): 第 二 个 条 件 跳 转 
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Figure 12.6: OllyDbg: f. signed(): 第 三 


x86 + MSVC + Hiew 


我 们 可 以 修改 这 个 可 执行 文件 ， 
印 “a==b”。 


在 Hiew 中 查看 fig. 12.7. 
我 们 要 完成 以 下 3 个 任务 : 


使 其 无 论 输入 的 什么 值 {f_ unsigned() 函 数 都 会 打 


1. 使 第 一 个 跳 转 一 直 被 触发 ; 
2. 使 第 二 个 跳 转 从 不 被 触发 ; 


o 


3. 使 第 三 个 跳 转 一 直 被 触发 这 样 才 一 直 


打印 “a==b”。 

(或 字 节 ) 应 该 被 修改 : 

4. 第 一 个 跳 转 修改 为 JMP , 但 跳 转 偏 移 值 不 变 9 

2. 第 二 个 跳 转 有 时 可 能 被 触发 ， 我 们 修改 跳 转 偏 移 值 为 0 后 ， 无 论 何 种 情况 ， 程 


序 总 是 跳 向 下 一 条 指令 。 跳 转 地 址 等 于 跳 转 偏 移 值 加 上 下 一 条 指令 地 址 ， e 
转 偏 移 值 为 0 时 ， 跳 转 地 址 就 为 下 一 条 指令 地 址 ， 所 以 无 论 如 何 下 一 条 指令 


我 们 需要 使 代码 流 进入 第 二 个 printf() > 


三 个 指令 


被 执行 。 
3. 第 三 个 跳 转 我 们 也 修改 为 JMP ， 修改 后 : fig. 12.8. 


这 样 跳 转 总 被 触发 。 
多 


如 果 忘 了 这 些 跳 转 ， printf() 可 能 会 被 多 次 调用 ， 这 种 行为 可 能 是 我 们 不 需要 的 。 
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Figure 12.8: Hiew: 我 们 修改 f unsigned() 函数 


Non-optimizing GCC 
GCC 4.4.1 非 优化 状态 产生 的 代码 几乎 一 样 ， 只 是 用 puts() (2.3.3) 替代 printf()。 
12.1.5 Optimizing GCC 


细心 的 读者 可 能 会 问 ， 为 什么 要 多 次 执行 CMP， 如 果 标 志 寄 存 器 每 次 都 相同 呢 ? 可 
能 MSVC 不 会 做 这 样 的 优化 ， 但 是 GCC 4.8.1 可 以 做 这 样 的 深度 优化 : 


Listing 12.4: GCC 4.8.1 f. signed() 


f signed: 
mov eax, DWORD PTR [esp+8] 
cmp DWORD PTR [esp+4], eax 
jg .L6 
je EY 
jge sis 
mov DWORD PTR [esp*4], OFFSET FLAT:.LC2 ; "a<b" 
jmp puts 
.L6: 
mov DWORD PTR [esp+4], OFFSET FLAT:.LCO ; "a»b" 
jmp puts 
PISTE: 
rep ret 
E 
mov DWORD PTR [esp+4], OFFSET FLAT:.LC1 ; "a==b" 
jmp puts 


我 们 可 以 看 到 JMP puts 4X F CALL puts/RETN。 稍 后 我 们 介绍 这 种 情况 11.1.1.。 

不 用 说 ， 这 种 类 型 的 X86 代 码 是 很 少见 的 。MSVC2012 似 乎 不 会 这 样 做 。 其 他 情况 
下 ， 汇 编程 序 能 意识 到 此 类 使 用 。 如 果 你 在 其 它 地 方 看 到 此 类 代码 ， 更 可 能 是 手工 
构造 的 。 

f unsigned() Sa : 


Listing 12.5: GCC 4.8.1 f unsigned() 


f unsigned: 
push 
push 
sub 
mov 
mov 
cmp 
ja 
cmp 
je 

.L10: 
jb 
add 
pop 
pop 
ret 

EGS: 
mov 
add 
pop 
pop 
jmp 

SITES 
mov 
call 
cmp 
jne 

.L14: 
mov 
add 
pop 
pop 
jmp 


esi 

ebx 

esp, 20 

esi, DWORD PTR [esp-*32] 

ebx, DWORD PTR [esp-36] 

esi, ebx 

.L13 

esi, ebx ; instruction may be removed 
.L14 


5 (Balls) 
esp, 20 
ebx 
esi 


DWORD PTR [esp+32], OFFSET FLAT:.LC2 ; "a<b" 
esp, 20 

ebx 

esi 

puts 


DWORD PTR [esp], OFFSET FLAT:.LCO ; "a>b" 
puts 

esi, ebx 

.L10 


DWORD PTR [esp+32], OFFSET FLAT:.LC1 ; "a==b" 
esp, 20 

ebx 

esi 

puts 


因此 ，GCC 4.8.1 的 优化 算法 并 不 总 是 完美 的 。 


12.2.1ARM 


32-bit ARM 


Keil + ARM mode 优 化 后 


Listing 12.6: Optimizing Keil + ARM mode 


. text :000000B8 EXPORT f signed 


.text:000000B8 f signed ; CODE XREF: 
main+C 

.text:000000B8 70 40 2D E9 STMFD SP!, {R4-R6,LR} 
.text:000000BC 01 40 AO E1 MOV RA, R1 
.text:000000CO 04 00 50 E1 CMP RO, R4 
.text:000000C4 00 50 AO E1 MOV R5, RO 
.text:000000C8 1A OE 8F C2 ADRGT RO, aAB ; "a»b 
.text:000000CC A1 18 00 CB BLGT _ 2printf 
.text:000000DO 04 00 55 E1 CMP R5, R4 
.text:000000D4 67 OF 8F 02 ADREQ RO, aAB O ; "a-- 
b 

.text:000000D8 9E 18 00 OB BLEQ _ 2printf 
.text:000000DC 04 00 55 E1 CMP R5, R4 
.text:000000EO 70 80 BD A8 LDMGEFD SP!, {R4-R6,PC} 
.text:000000EA4 70 40 BD E8 LDMFD SP!, (R4-R6,LR) 
.text:000000E8 19 OE 8F E2 ADR RO, aAB 1 ; "a«b 
.text:000000EC 99 18 00 EA B _ 2printf 
.text:000000EC ; End of function f signed 


ARM 下 很 多 指令 只 有 茶 些 标志 位 被 设置 时 才 会 被 执行 。 比 如 做 数值 比较 时 。 


举 个 例子 ，ADD 实 施 上 是 ADDAL， 这 里 的 AL 是 Always， 即 总 被 执行 。 判 定 谓词 是 
32 位 ARM 指 令 的 高 4 位 (AIR) 。 无 条 件 跳 转 的 B 指 令 其 实 是 有 条 件 的 ， 就 行 其 
它 任何 条 件 跳 转 一 样 ， 只 是 条 件 域 为 AL， 这 意味 着 总 是 被 执行 ， 忽 略 标志 位 。 


ADRGT 指 令 就 像 和 ADR 一 样 ， 只 是 该 指令 前 面 为 CMP 指 令 ， 并 且 只 有 前 面 数值 大 
于 另 一 个 数值 时 (Greater Than) 时 才 被 执行 。 


接 下 来 的 BLGT 行 为 和 BL 一 样 ， 只 有 上 比较 结果 符合 条 件 才能 出 发 (Greater 
Than) 。ADRGT 把 字符 串 “a>b ”的 地 址 写 入 R0， 然 后 BLGT 调 用 printf()。 因 此 ， 这 
些 指令 都 带 有 GT 后 级 ， 只 有 当 R0 (a 值 ) 大 于 R4 (b 值 ) 时 指令 才 会 被 执行 。 


然后 我 们 看 ADREQ 和 BLEQ， 这 些 指令 动作 和 ADR 及 BL 一 样 ， 只 有 当 两 个 操作 数 
对 比 后 相等 时 才 会 被 执行 。 这 些 指令 前 面 是 CMP (因为 printf() 调 用 可 能 会 修改 状态 
标识 ) 9 然后 我 们 看 LDMGEFD， 该 指令 行为 和 LDMFD 指 令 一 样 1， 仅仅 当 第 一 个 
值 大 于 等 于 另 一 个 值 时 (Greater Than) ， 指 令 才 会 被 执行 。 


“LDMGEFD SP!, {R4-R6,PC}" 恢 复 寄 存 器 并 返回 ， 只 是 当 a>=b 时 才 被 触发 ， 这 样 
之 后 函数 才 执 行 完成 。 但 是 如 果 a<b， 和 触发 条 件 不 成 立 是 将 执行 下 一 条 指令 LDMFD 
SP!, {R4-R6,LR}， 该 指令 保存 R4-R6 寄 存 器 ， 使 用 LR 而 不 是 PC， 函 数 并 不 返回 。 
最 后 两 条 指令 是 执行 printf() (5.3.2) » 


f unsigned 与 此 一 样 只 是 使 用 对 应 的 指令 为 ADRHI, BLHIALDMCSFD ， 判 断 谓词 
(HI = Unsigned higher, CS = Carry Set (greater than or equal)) 请 类 比 之 前 的 说 
明 ， 另 外 就 是 函数 内 部 使 用 无 符号 数值 。 


我 们 来 看 一 下 main() 函 数 : 


Listing 12.7: main() 


.text:00000128 EXPORT main 
.text:00000128 main 

.text:00000128 10 40 2D E9 STMFD SP!, {R4,LR} 
.text:0000012C 02 10 AO E3 MOV R1, #2 
.text:00000130 01 00 AO E3 MOV RO, #1 
.text:00000134 DF FF FF EB BL f signed 
.text:00000138 02 10 AO E3 MOV R1, #2 
.text:0000013C 01 00 AO E3 MOV RO, #1 
.text:00000140 EA FF FF EB BL f unsigned 
.text:00000144 00 00 AO ES3 MOV RO, #0 
.text:00000148 10 80 BD E8 LDMFD SP!, {R4,PC} 
.text:00000148 ; End of function main 


这 就 是 ARM 模 式 如 何 避 免 使 用 条 件 跳 转 。 


这 样 做 有 什么 好 处 呢 ? 因为 ARM 使 用 精简 指令 集 (RISC) 。 简 言 之 ， 处 理 器 流水 
线 技术 受到 跳 转 的 影响 ， 这 也 是 分 支 预测 重要 的 原因 。 程 序 使 用 的 条 件 或 者 无 条 件 
跳 转 越 少 越 好 ， 使 用 断言 指令 可 以 减少 条 件 跳 转 的 使 用 次 数 。 


X86 没有 这 也 的 功能 ， 通 过 使 用 CMP 设 置 相应 的 标志 位 来 触发 指令 。 


Optimizing Keil + thumb mode 


Listing 12.8: Optimizing Keil + thumb mode 


. text :00000072 
main+6 
. text :00000072 
.text:00000074 
.text:00000076 
. text :00000078 
. text :0000007A 
. text :0000007C 
>b 
. text :0000007E 
. text :00000082 
. text :00000082 
igned+8 
. text :00000082 
.text:00000084 
.text:00000086 
. text : 00000088 
. text :0000008C 
. text :0000008C 
igned+12 
. text :0000008C 
. text : 0000008E 
. text : 00000090 
. text: 00000092 
. text : 00000096 
. text : 00000096 
igned+1C 
. text : 00000096 
. text: 00000096 


仅仅 Thumb 模 式 下 的 B 指 令 可 能 


一 些 。 


70 
oc 
05 
AO 
02 
A4 


06 


A5 
02 
A4 


06 


A5 
02 
A3 


06 


70 


f signed 


B5 
00 
00 
42 
DD 
AQ 


FO B7 F8 
loc 82 

42 

D1 

AO 

FO B2 F8 
loc 8C 

42 

DA 

AO 


FO AD F8 


locret 96 


BD 


PUSH 
MOVS 
MOVS 
CMP 
BLE 
ADR 


BL 


CMP 
BNE 
ADR 


BL 


CMP 
BGE 
ADR 


BL 


POP 


; CODE XREF: 


{R4-R6, LR} 

R4, R1 

R5, RỌ 

RO, R4 

loc_82 

RO, aAB a 


_ 2printf 


; CODE XREF: f_s 


R5, R4 
loc. 8C 
RO, aAB O ; "a--b 


_ 2printf 


; CODE XREF: f s 


R5, R4 
locret 96 
RO, aAB 1 ; "a«b 


_ 2printf 


; CODE XREF: f s 


{R4-R6, PC) 


; End of function f signed 


需要 条 件 代码 辅助 ， 所 以 thumb 代 码 看 起 来 更 普通 


BLE 通 常 是 条 件 跳 转 小 于 或 等 于 (Less than or Equal) ，BNE 一 不 等 于 (Not 
Equal) ，BGE 一 大 于 或 等 于 (Greater than or Equal) 。 


f_unsigned 远 数 是 同样 的 ， 只 是 使 用 的 指令 用 来 处 理 无 符号 数值 : BLS (Unsigned 
lower or same) 和 BCS (Carry Set (Greater than or equal)). 


ARM64: Optimizing GCC (Linaro) 4.9 
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12.2 计算 绝对 值 

12.2.1 Optimizing MSVC 

12.2.2 Optimizing Keil 6/2013: Thumb mode 
12.2.3 Optimizing Keil 6/2013: ARM mode 
12.2.4 Non-optimizing GCC 4.9 (ARM64) 
12.2.5 MIPS 

12.2.6 Branchless version? 

12.3 三 元 操作 符 

12.3.1 x86 

12.3.2 ARM 

12.3.3 ARM64 

12.3.4 MIPS 

12.3.5 Let’s rewrite it in an if/else way 
12.3.6 Conclusion 

12.4 得 到 最 小 和 最 大 值 

12.4.1 32-bit 

Branchless 
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ARM 


12.6 Exercise 


第 十 三 章 
选择 结构 switch()/case/default 


13.1 少量 的 case 


void f (int a) 
switch (a) 
case 0: printf ("zero"); break; 
case 1: printf ("one"); break; 
case 2: printf ("two"); break; 
default: printf ("something unknown"); break; 
}; 
}; 


13.1.1 X86 


Non-optimizing MSVC 
反 汇 编 结 果 如 下 (MSVC 2010) : 
清单 13.1: MSVC 2010 


tv64 = -4 ; size = 4 
_a$ = 8 7 Size — 4 
_f PROC 

push ebp 

mov ebp, esp 

push ecx 

mov eax, 

mov DWORD 

cmp DWORD 

je SHORT $LN4@f 

cmp DWORD 

je SHORT $LN3@f 

cmp DWORD 

je SHORT $LN2Qf 

jmp SHORT $LNi1Qf 
SLNAQf : 

push OFFSET $SG739 

call _printf 

add esp, 4 

jmp SHORT $LN7@f 
$LN3QF : 

push OFFSET $SG741 

call _printf 

add esp, 4 

jmp SHORT $LN7Qf 
SLN26f : 

push OFFSET $SG743 

call _printf 

add esp, 4 

jmp SHORT $LN7Qf 
SLN1Qf : 

push OFFSET $SG745 

call _printf 

add esp, 4 
SLN76Qf : 

mov esp, ebp 

pop ebp 

ret 0 
SET. ENDP 


输出 函数 的 switch 中 有 一 些 case 选 


, 


, 


, 


DWORD PTR _a$[ebp] 
PTR tv64[ebp], eax 
PTR tv64[ebp], 0 
PTR tv64[ebp], 1 


PTR tv64[ebp], 2 


‘zero’, QaH, OOH 


‘one’, OaH, OOH 


‘two’, OaH, OOH 


"something unknown’, OaH, OOH 


实 上 ， 它 是 和 下 面 这 个 形式 等 价 的 : 


AR 


void f (int a) 


{ 
if (a==0) 
printf ("zero"); 
else if (a==1) 
printf ("one"); 
else if (a==2) 
printf ("two"); 
else 
printf ("something unknown"); 
3 


当 switch 中 只 有 少量 的 case 分 支 时 ， 我 们 可 以 看 到 此 类 代码 ， 虽 然 不 能 确定 ， 但 
是 ， 事 实 上 switch() 在 机 器 码 级 别 上 就 是 对 if() 的 封装 。 这 也 就 是 说 ，switch() 其 实 只 
是 对 有 一 大 堆 类 似 条 件 判断 的 if 的 一 个 语法 糖 。 


在 生成 代码 时 ， 除 了 编译 器 把 输入 变量 移动 到 一 个 临时 本 地 变量 tv64 中 之 外 ， 这 块 
代码 对 我 们 来 说 并 无 新 意 。 


如 果 是 在 GCC 4.4.1 下 编译 同样 的 代码 ， 我 们 得 到 的 结果 也 几乎 一 样 ， 即 使 你 打开 
了 最 高 优化 (-03) 也 是 如 此 。 

Optimizing MSVC 

让 我 们 在 微软 VC 编译 器 中 打开 /Ox 优化 选项 : cl 1.c /Fal.asm /Ox 


清单 13.2: MSVC 


_a$ = 8 tS eu a4 


_f PROC 

mov eax, DWORD PTR _a$[esp-4] 

sub eax, 0 

je SHORT $LN4@f 

sub eax, 1 

je SHORT $LN3@f 

sub eax, 1 

je SHORT $LN2Qf 

ios DWORD PTR _a$[esp-4], OFFSET $SG791 ; ‘something unk 
nown’, QaH, 00H 

mp _printf 

SU 

mov DWORD PTR _a$[esp-4], OFFSET $SG789 ; ‘two’, OaH, 00 
H 

jmp _printf 
$LN3Qf : 

mov DWORD PTR _a$[esp-4], OFFSET $SG787 ; ‘one’, OaH, 00 
H 

jmp _printf 
$LN4QF : 

mov DWORD PTR _a$[esp-4], OFFSET $SG785 ; ‘zero’, 0aH, 0 
OH 

jmp _printf 
f ENDP 


我 们 可 以 看 到 浏览 器 做 了 更 多 的 难以 阅读 的 优化 (Dirty hacks) 。 


首先 ， 变 量 的 值 会 被 放 入 EAX， 接 着 EAX 减 0。 听 起 来 这 很 奇怪 ， 但 它 之 后 是 需 
检查 先前 EAX 寄存 器 的 值 是 否 为 0 的 ， 如 果 是 ， 那 么 程序 会 设置 上 零 标志 位 ZF (这 
也 表示 了 减 去 0 之 后 ， 结 果 依 然 是 0) ， 第 一 个 条 件 跳 转 语句 JE (Jump if Equal 或 
者 同义词 JZ - Jump if Zero) 会 因此 触发 跳 转 。 如 果 这 个 条 件 不 满足 ，JE 没 有 跳 转 
的 话 ， 输 入 值 将 减 去 1， 之 后 就 和 之 前 的 一 样 了 ， 如 果 哪 一 次 值 是 0， 那 么 JE 就 会 触 
发 ， 从 而 跳 转 到 对 应 的 处 理 语 名 上 。 


Sa ee alae 零 标志 位 ZF， 但 是 MOV 不 会 设置 标志 位 ， 0 
ZF 标 志 位 设置 之 后 才 会 跳 转 。 如 果 需 要 基于 EAX 的 值 来 做 JE 跳 转 的 话 ， 是 需要 用 这 
pel nec 位 的 ) e 


并 且 ， 如 果 没 有 JE 语句 被 甬 发 ， 最 终 ，printf() 函 数 将 收 到 “something unknown” 的 
参数 。 


其 次 : 我 们 看 到 了 一 些 不 寻常 的 东西 一 字符 串 指针 被 放 在 了 变量 里 ， 然 后 printf() 
并 没有 通过 CALL， 而 是 通过 JMP 来 调用 的 。 这 个 可 以 很 简单 的 解释 清楚 ， 调 用 者 
把 参数 压 栈 ， 然 后 通过 CALL 调 用 未 数 。CALL 通 过 把 返回 地 址 压 栈 ， 然 后 做 无 条 件 
跳 转 来 跳 到 我 们 的 函数 地 址 。 我 们 的 函数 在 执行 时 ， 不 管 在 任何 时 候 都 有 以 下 的 栈 
结构 (因为 它 没有 任何 移动 栈 指针 的 语 钉 ) 


: ESP — 指向 返回 地 址 
: ESP+4 一 指向 变量 a (也 即 参数 ) 


另 一 方面 ， 当 我 们 这 儿 调 用 printf() 喜 数 的 时 候 ， 它 也 需要 有 与 我 们 这 个 函数 相同 的 
栈 结 构 ， 不 同 之 处 只 在 于 printf() 的 第 一 个 参数 是 指向 一 个 字符 串 的 。 这 也 就 是 你 之 
前 看 到 的 我 们 的 代码 所 做 的 事情 。 

我 们 的 代码 把 第 一 个 参数 的 地 址 替换 了 ， 然 后 跳 转 到 printf()， 就 像 第 一 个 没有 调用 
BRANT AY AAA) Fo ze ALTA FAT printf()—## ° printf() 把 一 串 字 符 输 出 到 stdout 中 ， 然 后 
执行 RET 语 名 ， 这 一 句 会 从 栈 上 弹出 返回 地 址 ， 因 此 ， 此 时 控制 流 会 返回 到 调用 f() 
的 函数 上 ， 而 不 是 人 0) 上 。 

这 一 切 之 所 以 能 发 生 ， 是 因为 printf() 在 f() 的 末尾 。 在 一 些 情 况 下 ， 这 有 些 类 似 于 
longjmp() 函 数 。 当 然 ， 这 一 切 只 是 为 了 提高 执行 速度 。 


ARM 编 译 器 也 有 类 似 的 优化 ， 请 见 5.3.2 节 “ 带 有 多 个 参数 的 printf() 函 数 调 用 ”。 
OllyDbg 


13.1.2 ARM : 优化 后 的 Keil + ARM 模式 


. text :0000014C f1 

.text:0000014C 00 00 50 E3 CMP RO, #0 

.text:00000150 13 OE 8F 02 ADREQ RO, aZero ; "zero 
.text:00000154 05 00 00 OA BEQ loc 170 

.text:00000158 01 00 50 ES3 CMP RO, £1 

.text:0000015C 4B OF 8F 02 ADREQ RO, aOne ; "one 
.text:00000160 02 00 00 OA BEQ loc 170 

.text:00000164 02 00 50 E3 CMP RO, #2 

. text :00000168 4A OF 8F 12 ADRNE RO, aSomethingUnkno ; 


"something unknown 


.text:0000016C 4E OF 8F 02 ADREQ RO, aTwo ; "two 

. text :00000170 

. text :00000170 loc_170 ; CODE X 
REF: f1+8 

. text :00000170 ; f1+14 
.text:00000170 78 18 00 EA B  2printf 


我 们 再 一 次 看 看 这 个 代码 ， 我 们 不 能 确定 的 说 这 就 是 源 代码 里 面 的 Switch() 或 者 说 
它 是 if() 的 封装 。 


人 但是， 我们 可 以 看 到 这 里 它 也 在 试图 预测 指令 ( 像 是 ADREQ (相等 ) ) ， 这 里 它 
会 在 RO=0 的 情况 下 触发 ， 并 且 字 符 串 “zero" 的 地 址 将 被 加 载 到 RO 中 。 如 果 RO=0， 
下 一 个 指令 BEQ 将 把 控制 流 定向 到 loc_170 处 。 顺 带 一 说 ， 机智 的 读者 们 可 能 会 
文 ， 之 前 的 ADREQ 已 经 用 其 他 值 填充 了 R0 寄 存 器 了 ， 那 么 BEQ 会 被 正确 触发 吗 ? 
答案 是 “是 "。 因 为 BEQ 检 查 的 是 CMP 所 设置 的 标记 位 ， 但 是 ADREQ 根 本 没有 修改 
标记 位 。 


还 有 ， 在 ARM 中 ， 一 些 指令 还 会 如 上 -S 后 级 ， 这 表明 指令 将 会 根据 结果 设置 标记 
位 。 如 果 没 有 -S 的 话 ， 表 明 标 记 位 并 不 会 被 修改 。 比 如 ，ADD (而 不 是 ADDS) 将 
会 把 两 个 操作 数 相 加 ， 但 是 并 不 会 涉及 标记 位 。 这 类 指令 对 使 用 CMP 设 置 标记 位 之 
后 使 用 标记 位 的 指令 ， 例 如 条 件 跳 转 来 说 非常 有 用 。 


其 他 指令 对 我 们 来 说 已 经 很 熟悉 了 。 这 里 只 有 一 个 调用 指向 printf () ， 在 末尾 ， 我 
们 已 经 知道 了 这 个 小 技巧 ( 见 5.3.2 节 ) 。 在 末尾 处 有 三 个 指向 printf ( ) 的 地 址 。 
还 有 ， 需 要 注意 的 是 如 果 a=2 但 是 a 并 不 在 它 的 选择 分 支 给 定 的 常数 中 时 > “CMP 
RO, #2” 指 令 在 这 个 情况 下 就 需要 知道 9 是 否 等 于 2。 如 果 结 果 为 假 ，ADRNE 将 会 读 
取 字 符 串 “something unknown "到 R0 中 ， 因 为 a 在 之 前 已 经 和 0、1 做 过 是 否 相 等 的 
判断 了 ， 这 里 我 们 可 以 假定 a 并 不 等 于 0 或 者 1。 并且 ， 如 果 R0=2，a 指 向 的 字符 

囊 “two ”将 会 被 ADREQ 载 入 R0。 


13.1.3 ARM : 优化 后 的 Keil + thumb 模式 


. text :000000D4 f1 


.text:000000D4 10 B5 PUSH {R4, LR} 

.text:000000D6 00 28 CMP RO, #0 

.text:000000D8 05 DO BEQ zero case 

.text:000000DA 01 28 CMP RO, #1 

.text:000000DC 05 DO BEQ one case 

.text:000000DE 02 28 CMP RO, Z2 

.text:000000EO 05 DO BEQ two case 

.text:000000E2 91 AO ADR RO, aSomethingUnkno ; "s 


omething unknown 
.text:000000EA4 04 EO B default case 
.text:000000E6 ; 


.text:000000E6 zero case ; CO 
DE XREF: f1+4 

.text:000000E6 95 AO ADR RO, aZero prot 
ero 

.text:000000E8 02 EO B default case 


.text:000000EA ; 


.text:000000EA one case ; CO 
DE XREF: f1+8 

.text:000000EA 96 AO ADR RO, aOne HEUS 
ne 

.text:000000EC 00 EO B default case 
.text:000000EE ; 


.text:000000EE two case , CO 
DE XREF: f1+C 

.text:000000EE 97 AO ADR RO, aTwo POE 
WO 

.text:000000F0 default case ; CO 
DE XREF: f1+10 

.text:000000F0 pol 
+14 

.text:000000FO 06 FO 7E F8 BL _ 2printf 

.text:000000F4 10 BD POP {R4, PC} 

. text :000000F4 ; End of function f1 


正如 我 之 前 提 到 的 ， 在 thumb 模 式 下 并 没有 什么 功能 来 连接 预测 结果 ， 所 以 这 里 的 
thumb 代 码 有 点 像 容易 理解 的 X86 CISC 代 码 。 


13.1.4 ARM64: Non-optimizing GCC (Linaro) 4.9 


13.1.5 ARM64: Optimizing GCC (Linaro) 4.9 
13.1.6 MIPS 
13.1.7 Conclusion 


13.2 多 case 的 情况 


在 有 许多 case 分 支 的 switch() 语 名 中 ， 对 编译 器 来 说 ， 转 换 出 一 大 堆 JE/JNE 语 名 并 
不 是 太 方便 。 


void f (int a) 


switch (a) 
case 0: printf ("zero"); break; 
case 1: printf ("one"); break; 
case 2: printf ("two"); break; 
case 3: printf ("three"); break; 
case 4: printf ("four"); break; 
default: printf ("something unknown"); break; 
3 
3 
13.2.1 x86 


反 汇 编 结果 如 下 (MSVC 2010) 
清单 13.3: MSVC 2010 


tv64 = -4 ; size = 4 
_a$ = 8 ; size = 4 
f PROC 

push ebp 
mov ebp, esp 
push ecx 
mov eax, DWORD PTR  a$[ebp] 
mov DWORD PTR tv64[ebp], eax 
cmp DWORD PTR tv64[ebp], 4 
ja SHORT $LN1QOf 
mov ecx, DWORD PTR tv64[ebp] 
jmp DWORD PTR $LN11@f[ecx*4] 

$LN6QF : 
push OFFSET $SG739 ; ‘zero’, O0aH, OOH 
call _printf 
add esp, 4 


jmp SHORT $LN9Qf 


$LN5QF : 


push OFFSET $SG741 ; 'one', OaH, OOH 
call _printf 
add esp, 4 
jmp SHORT $LN9Qf 
$LN4QF : 
push OFFSET $SG743 ; 'two', OaH, OOH 
call _printf 
a esp, 4 
mp SHORT $LN9Qf 
suene 
push OFFSET $SG745 ; 'three', OaH, OOH 
call _printf 
gu esp, 4 
mp SHORT $LN9Qf 
Sura. 
push OFFSET $SG747 ; 'four', OaH, OOH 
call _printf 
ER esp, 4 
mp SHORT $LN9Qf 
Sue 
push OFFSET $SG749 ; 'something unknown’, OaH, OOH 
call _printf 
add esp, 4 
$LN9Qf : 
mov esp, ebp 
pop ebp 
ret 0 
npad 2 
$LN11@F : 
DD $LN6@f ; 0 
DD $LN5@f ; 1 
DD $LN4@f ; 2 
DD $LN3@f ; 3 
DD $LN2@f ; 4 
eSI ENDP 
好 的 ， 我 们 可 以 看 到 这 儿 有 一 组 不 同 参 数 的 printf() 调 用 。 它们 不 仅 有 内 存 中 的 地 
址 ， 编 译 器 还 给 它们 带 上 了 符号 信息 。 顺 带 一 提 ， 这 些 符号 标签 也 都 存在 于 


$LN11Qf 38 BRAY o 
在 函数 最 开始 ， 如 果 a 大 于 4， 控 制 流 将 会 被 传递 到 标签 $LN1@f 上 ， 
参数 为 <something unknown” 的 printf() 调 用 。 


如 果 a 值 小 于 等 于 4， 然 后 我 们 把 它 乘 尺 4，[email protected] 3E 49 Zr; > AETV 
正好 指向 我 们 需要 的 元 素 。 比 如 a 等 于 2。 那 么 ，2x4=8 (在 32 位 进程 下 ， 所 有 的 函 
数 表 元 素 的 长 度 都 只 有 4 字 节 ) ，$LN11@f 的 函数 表 地 址 +8 一 这样 就 朋 
$LN4@f 标 签 的 位 置 。JMP 将 从 函数 表 中 获得 $LN4@f 的 地 址 ， 然 后 跳 转 向 它 


这 个 函数 表 ， 有 时 候 也 叫做 跳 转 表 (jumptable) 。 


这 儿 会 有 一 个 





然后 ， 对 应 的 ，printf() 的 参数 就 是 ‘two” 了 。 字面 意思 ，JMP DWORD PTR 
$LN11@f[ECX 妖 指令 意味 着 “ 跳 转 到 存储 在 LN11@f+ ecx 4 地 址 上 的 双 字 ”。 
npad (64) 是 一 个 编译 时 语言 宏 ， 它 用 于 对 齐 下 一 个 标签 ， 这 样 存储 的 地 址 就 会 按 
照 4 字 节 (或 者 16 字 节 ) 对 齐 。 这 个 对 于 处 理 器 来 说 是 十 分 合适 的 ， 因 为 通过 内 存 
总 线 、 缓 存 从 内 存 中 获取 32 位 的 值 是 非常 方便 而 有 全 有 效率 的 。 


OllyDbg 


Non-optimizing GCC 
让 我 们 看 看 GCC 4.4.1 生成 的 代码 : 
清单 13.4 : GCC 4.4.1 


public f 


f proc near ; CODE XREF: main+10 
var_18 = dword ptr -18h 
arg 0 - dword ptr 8 
push ebp 
mov ebp, esp 
sub esp, 18h ; char * 
cmp [ebp*arg 0], 4 
ja short loc 8048444 
mov eax, [ebp-*arg 0] 
shl eax, 2 
mov eax, ds:off 804855C[eax] 
jmp eax 
loc 80483FE: ; DATA XREF: .rodata:off 804855C 
mov [esp*18h-var 18], offset aZero ; "zero" 
call . puts 
jmp short locret 8048450 
loc 804840C: ; DATA XREF: .rodata:08048560 
mov [esp*18h-var 18], offset aOne ; "one" 
call . puts 
jmp short locret 8048450 
loc 8048441A: ; DATA XREF: .rodata:08048564 
mov [esp*18h-var 18], offset aTwo ; "two" 
call . puts 
jmp short locret 8048450 
loc 8048428: ; DATA XREF: .rodata:08048568 
mov [esp*18h-var 18], offset aThree ; "three" 
call . puts 
jmp short locret_8048450 
loc_8048436: ; DATA XREF: .rodata:0804856C 
mov [esp*18h-var 18], offset aFour ; "four" 
call . puts 
jmp short locret_8048450 
loc_8048444: ; CODE XREF: f+A 
mov [esp*18h-var 18], offset aSomethingUnkno ; "some 
thing unknown" 
call puts 
locret 8048450: ; CODE XREF: f+26 
cadem 
leave 
retn 
f endp 


off 804855C dd offset loc 80483FE ; DATA XREF: f+12 
dd offset loc 804840C 
dd offset loc 804841A 
dd offset loc 8048428 
dd offset loc 8048436 


基本 和 VC 生成 的 相同 ， 除 了 少许 的 差别 : 参数 arg_0 的 乘 以 4 操作 被 左 移 2 位 替换 了 
(这 集合 和 乘 以 4 一 样 ) ( 见 17.3.1 节 ) 。 然后 标签 地 址 从 off 804855C 处 的 数组 获 
取 ， 地 址 计算 之 后 存储 到 EAX 中 ， 然 后 通过 JMP EAX 跳 转 到 实际 的 地 址 上 。 


13.2.2 ARM: 优化 后 的 Keil + ARM 模式 


00000174 f2 

00000174 05 00 50 E3 CMP RO, £5 

; Switch 5 cases 

00000178 00 F1 8F 30 ADDCC PC, PC, RO, LSL#2 

; switch jump 

0000017C OE 00 00 EA B default case 

; jumptable 00000178 default case 

00000180 ) -------------------------------------- 
00000180 

00000180 loc_180 ; CODE X 
REF: f2+4 

00000180 03 00 00 EA B zero case ; jumpta 
ble 00000178 case 0 

00000184 ) -------------------------------------- 
00000184 

00000184 loc 184 ; CODE X 
REF: f2+4 

00000184 04 00 00 EA B one case ; jumpta 
ble 00000178 case 1 

00000188 j} -------------------------------------- 
00000188 

00000188 loc 188 ; CODE X 
REF: f2+4 

00000188 05 00 00 EA B two case ; jumpta 
ble 00000178 case 2 

0000018C J -------------------------------------- 
0000018C 

0000018C loc 18C ; CODE X 
REF: f2+4 

0000018C 06 00 00 EA B three case ; jumpta 
ble 00000178 case 3 

00000190 j} -------------------------------------- 
00000190 

00000190 loc_190 ; CODE X 
REF: f2+4 

00000190 07 00 00 EA B four case ; jumpta 
ble 00000178 case 4 

00000194 ) -------------------------------------- 


00000194 


00000194 

REF: f2+4 
00000194 

_180 

00000194 EC 00 8F 
ble 00000178 case 
00000198 06 00 00 


0000019C 


E2 


EA 


zero case 


0000019C 

90000019C one case 
REF: f2+4 
0000019C 

_184 

0000019C EC 00 8F 
ble 00000178 case 
000001A0 04 OO OO 
000001A4 


E2 


EA 


000001A4 

000001A4 

REF: f2+4 
000001A4 

_188 

000001A4 01 OC 8F 
ble 00000178 case 
9000001A8 02 00 00 
000001AC 


E2 


EA 


two case 


000001AC 

000001AC 

REF: f2+4 
000001AC 

_18C 

000001AC 01 OC 8F 
0000178 case 3 
000001BO 00 00 00 


three case 


RO, aZero 


loc 1B8 


RO, aOne 


loc 1B8 


RO, aTwo 


loc 1B8 


, 


CODE X 
f2:10c 


jumpta 


RO, aThree ; jumptable 0 


loc 1B8 


000001B4 ; ----------------------------------------------------- 


000001B4 

000001B4 

REF: f2+4 
000001B4 

_190 

000001B4 01 OC 8F 
ble 00000178 case 
000001B8 

000001B8 

REF: f2+24 
000001B8 

000001B8 66 18 00 


four case 


ADR 


loc 1B8 


RO, aFour 


_ 2printf 


000001BC ; ----------------------------------------------------- 


000001BC 

000001BC default case ; CODE X 
REF: f2+4 

000001BC ; f2+8 
000001BC D4 00 8F E2 ADR RO, aSomethingUnkno ; ju 
mptable 00000178 default case 

000001CO FC FF FF EA B loc 1B8 

000001C0 ; End of function f2 


这 个 代码 利用 了 ARM 的 特性 ， 这 里 ARM 模 式 下 所 有 指令 都 是 4 个 字 节 。 
让 我 们 记 住 a 的 最 大 值 是 4， 任 何 更 大 额 值 都 会 导致 它 输出 something unknown” ° 
最 开始 的 “CMP RO, #5” 指 令 将 a 的 值 与 5 比较 。 


下 一 个 “ADDCC PC, PC, RO, LSL#2" 指 令 将 仅 在 RO<5 的 时 候 执行 (cc ==" 
carry="" clear="" ”一 "0 小 于 ) o 所 VA > 如 果 addcc 并 没有 触发 (r0="">=5 时 ) 它 
将 会 跳 转 到 default _case 标 签 上 。 


但 是 ， 如 果 RO<5， 而 有 全 ADDCC 触 发 了 ， 将 会 发 生 下 列 事情 : 

R0 中 的 值 会 乘 尺 4， 事 实 上 ，LSL#2 代 表 着 “ 左 移 2 位 *， 但 是 像 我 们 接 下 来 (L 
17.8.4 $ ) 要 看 到 的 “ 移 位 一样， 左 移 2 位 代表 乘 以 4。 

然后 ， 我 们 得 到 了 R0* 4 的 值 ， 这 个 值 将 会 和 PC 中 现 有 的 值 相 加 ， 因 此 跳 转 到 下 述 
其 中 一 个 B (Branch 分 支 ) 指令 上 。 

在 ADDCC 执 行 时 ，PC 中 的 值 (0x180) 比 ADDCC 指 令 的 值 (0x178) 提前 8 个 字 
节 ， 换 多 话说 ， 提 前 2 个 指令 。 

这 也 就 是 为 ARM 处 理 器 通道 工作 的 方式 : 当 ADDCC 指 令 执 行 的 时 候 ， 此 时 处 理 器 
将 开始 处 理 下 一 个 指令 ， 这 也 就 是 PC 会 指向 这 里 的 原因 。 

如 果 a=0， 那 么 PC 将 不 会 和 任何 值 相 加 ，PC 中 实际 的 值 将 写 入 PC 中 ( 它 相对 之 领 


先 8 个 字 节 ) ， 然 后 跳 转 到 标签 loc_180 处 。 这 就 是 领先 ADDCC 指 令 8 个 字 节 的 地 
方 。 

在 a=1 时 ，PC+8+a4 = PC+8+14 = PC+16= 0x184 将 被 写 入 PC 中 ， 这 是 loc_184 标 
签 的 地 址 。 


每 当 a 上 加 1，PC 都 会 增加 4，4 也 是 ARM 模 式 的 指令 长 度 ， 而 且 也 是 B 指 令 的 长 
度 。 这 组 里 面 有 5 个 这 样 的 指令 。 


这 5 个 B 指 令 将 传递 控制 流 ， 也 就 是 传递 switch () 中 指定 的 字符 串 和 对 应 的 操作 等 


F o 
13.2.3 ARM : 优化 后 的 Keil + thumb 模式 


000000F6 EXPORT f2 
000000F6 F 
000000F6 10 B5 PUSH {R4, LR} 


000000F8 03 00 
000000FA 06 FO 


69 F8 


mb ; switch 6 cases 


000000FA 


MOVS R3, RO 


BL .. ARM common switch8 thu 


000000FE 05 


000000FF 04 06 08 OA OC 10 


mp table for switch 


statement 
00000105 00 
00000106 
00000106 

REF: f2+4 
00000106 8D AO 
table 000000FA 
00000108 06 EO 
0000010A 


case 


DCB 5 


DCB 4, 6, 8, OxA, OxC, 0x10 ; ju 


zero case 


0000010A 
0000010A 
REF: f2+4 
0000010A 8E AO 
table 000000FA 
0000010C 04 EO 
0000010E 


case 


0000010E 
0000010E 

REF: f2+4 
0000010E 8F AO 
table 000000FA 
00000110 02 EO 
00000112 


case 


ALIGN 2 

ADR RO, aZero 

B loc 118 

5 eh SE Sees ans Set a ca Vege A cee od ees es Ses omc Gl ipa es Phd oe OR, 
one_case 

ADR RO, aOne 

B loc 118 

7 eh sak as Ress Se RON A st ee end aed aes Ss te ooo ot Ss Pas Coe a 
two_case 

ADR RO, aTwo 

B loc_118 


00000112 
00000112 

REF: f2+4 
00000112 90 AO 
table 000000FA 
00000114 00 EO 
00000116 


case 


00000116 
00000116 

REF: f2+4 
00000116 91 AO 
table 000000FA 
00000118 
00000118 

REF: f2+12 
00000118 
00000118 06 FO 
0000011C 10 BD 


case 


6A F8 


ADR RO, aThree 

B loc 118 

5 "d au D imo od. ou eu T duci ans oe cet cat n n d Suo d i io T uo d 
four case 

ADR RO, aFour 
loc 118 

BL _ 2printf 


POP (R4, PC) 


CODE X 


; jump 


CODE X 


f2416 


0000011E vC ER 


0000011E 
0000011E default case ; CODE X 
REF: f2+4 
0000011E 82 AO ADR RO, aSomethingUnkno ; 
jumptable 000000FA default 
case 
00000120 FA E7 B loc 118 
000061D0 EXPORT __ARM_common_switch8_thum 
b 
000061D0 . ARM common switch8 thumb ; CODE XR 
EF: example6_f2+4 
000061DO 78 47 BX PC 
000061D0 )----------------------------------- 
000061D2 00 00 ALIGN 4 
000061D2 ; End of function __ARM_common_switc 
h8 thumb 
000061D2 
000061D4 CODE32 
000061D4 
000061D4 ; =============== SUBROUTIN 
E SS SSS SSS SSS SS SSS SSS SSS SSS SSS SSS SS SS SSS SS SS SS S55 
000061D4 
000061D4 
000061D4 . 32 ARM common switch8 thumb ; CO 
DE XREF: 

. .ARM common switch8 thumb 
000061D4 01 CO 5E E5 LDRB R12, [LR,#-1] 
000061D8 OC 00 53 E1 CMP R3, R12 
000061DC OC 30 DE 27 LDRCSB R3, [LR,R12] 
000061EO O3 30 DE 37 LDRCCB R3, [LR,R3] 
000061EA4 83 CO 8E EO ADD R12, LR, R3,LSL#1 
000061E8 1C FF 2F E1 BX R12 
000061E8 ; End of function | 32 ARM common switc 
h8 thumb 


一 个 不 能 确定 的 事实 是 thumb、thumb-2 中 的 所 有 指令 都 有 同样 的 大 小 。 甚 至 可 以 
说 是 在 这 些 模式 下 ， 指 令 的 长 度 是 可 变 的 ， 就 像 x86 一 样 。 


所 以 这 一 定 有 一 个 特别 的 表单 ， 里 面包 含有 多 少 个 case (除了 默认 的 case) ， 然 后 

和 它们 的 偏 移 ， 并 且 给 他 们 每 个 都 加 上 一 个 标签 | 这样 控制 流 就 可 以 传递 到 正确 的 

位 置 。 这 里 有 一 个 特别 的 兄 数 来 处 理 表 单 和 处 理 控制 流 ， 被 命名 为 
_ARM_common_switch8_thumb。 它 由 “BX PC” 指 令 开 始 ， 这 个 函数 用 n 
器 切换 到 ARM 模 式 ， 然 后 你 就 可 以 看 到 处 理 表单 的 函数 。 不 过 对 我 们 来 说 ， 在 这 

Ap 它 太 复杂 了 ， 所 以 我 们 将 省 去 一 些 细节 “。 


但 是 有 趣 的 是 ， 这 个 函数 使 用 LR 寄存 器 作为 表单 的 指针 。 还 有 ， 在 这 个 函数 调用 
后 ，LR 将 包含 有 紧 跟 着 “BL ARM_common_switch8_thumb” 指 令 的 地 址 ， 然 后 表 
单 就 由 此 开始 。 


当然 ， 这 里 也 不 值得 去 把 生成 的 代码 作为 单独 的 函数 ， 然 后 再 去 重用 它们 。 因 此 在 
switch() 处 理 相似 的 位 置 、 相 似 的 case 时 编译 器 并 不 会 生成 相同 的 代码 。 


IDA 成 功 的 发 觉 到 它 是 一 个 服务 函数 以 及 函数 表 ， 然 后 给 各 个 标签 如 上 了 合适 的 注 
释 ， 比 如 jumptable 000000FA case 0。 
13.2.4 MIPS 


13.2.5 Conclusion 


当 几 个 case 在 一 起 的 时 候 

13.3.1 MSVC 

13.3.2 GCC 

13.3.3 ARM64: Optimizing GCC 4.9.1 
13.4 报错 

13.4.1 MSVC x86 


13.4.2 ARM64 


13.5 Exercises 


Exercise #1 


第 十 四 章 
循环 结构 


14.1 简单 的 例子 


14.1.1 x86 


在 X86 指 令 集中 ， 有 一 些 独特 的 LOOP 指 令 ， 它 们 会 检查 ECX 中 的 值 ， 如 果 它 不 是 0 
的 话 ， 它 会 逐渐 递减 ECX 的 值 ( 减 一 ) ， 然 后 把 控制 流传 递 给 LOOP 操 作 符 提供 的 
标签 处 。 也许， 这 个 指令 并 不 是 多 方便 ， 所 以 ， 我 没有 看 到 任何 现代 编译 器 自动 使 
用 它 。 如 果 你 看 到 哪里 的 代码 用 了 这 个 结构 ， 那 它 很 有 可 能 是 程序 员 手 写 的 汇编 代 
AU o 


顺带 一 提 ， 作 为 家 庭 作业 ， 你 可 以 试 着 解释 以 下 为 什么 这 个 指令 如 此 不 方便 。 
C/C++ 循环 操作 是 由 for()、while()、do/while() 命 令 发 起 的 。 
让 我 们 从 for() 开 始 吧 。 

这 个 命令 定义 了 循环 初始 值 (为 循环 计数 器 设置 初 值 ) > PARA (Mite > TRS 
是 否 大 于 一 个 阅 值 ? ) ， 以 及 在 每 次 迭代 ( 增 / 减 ) 时 和 循环 体 中 做 什么 。 

for (初始 化 ; 条 件 ; 每 次 迭代 时 执行 的 语句 ) 


循环 体 ， 


所 以 ， 它 生成 的 代码 也 将 被 考虑 为 4 个 部 分 。 
让 我 们 从 一 个 简单 的 例子 开始 吧 : 


Zinclude «stdio.h» 
void f(int i) 


{ 
printf ("f(%d) 
", i); 
J; 
int main() 
i . H 
int 1; 
for (i-2; i«10; i++) 
f(i); 
return 0; 
J; 


反 汇 编 结 果 如 下 (MSVC 2010) 
清单 14.1: MSVC 2010 


_i$ = -4 
. main PROC 

push ebp 

mov ebp, esp 

push ecx 

mov DWORD PTR _i$[ebp], 2 ; loop initializatio 
n 

jmp SHORT $LN3Qmain 
$LN2@main: 

mov eax, DWORD PTR _i$[ebp] ; here is what we do 

after each iteration: 

add eax, 1 ; add 1 to i value 

mov DWORD PTR _i$[ebp], eax 
$LN3@main: 

cmp DWORD PTR _i$[ebp], 10 ; this condition is 
checked *before* each iteration 

jge SHORT $LNi1Qmain ; if i is biggest or 

equals to 10, let's finish loop 

mov ecx, DWORD PTR _i$[ebp] ; loop body: call f( 
i) 

push ecx 

call mU 

add esp, 4 

jmp SHORT $LN2Qmain ; jump to loop begin 
$LN1@main: ; loop end 

xor eax, eax 

mov esp, ebp 

pop ebp 

ret 0 
_main ENDP 


看 起 来 没什么 特别 的 。 


GCC 4.4.1 生 成 的 代码 也 基本 相同 ， 只 有 一 些微 妙 的 区 别 。 
清单 14.1: GCC 4.4.1 


main proc near ; DATA XREF: _start+17 
var. 20 - dword ptr -20h 
var 4 - dword ptr -4 
push ebp 
mov ebp, esp 
and esp, OFFFFFFFOh 
sub esp, 20h 
mov [esp*20h-var 4], 2 ; i initializing 
jmp short loc 8048476 
loc 8048465: 
mov eax, [esp-*20h-var 4] 
mov [esp*20h-var 20], eax 
call f 
add [esp+20h+var_4], 1 ; i increment 
loc 8048476: 
cmp [esp*20h-var 4], 9 
jle short loc_8048465 ; if i<=9, continue loop 
mov eax, 0 
leave 
retn 
main endp 


现在 ， 让 我 们 看 看 如 果 我 们 打开 了 优化 开关 会 得 到 什么 结果 (IOx) 
清单 14.3: 优化 后 的 MSVC 


_main PROC 
push esi 
mov esi, 2 
$LL3@main: 
push esi 
call _f 
inc esi 
add esp, 4 
cmp esi, 10 ; 0000000aH 
ji SHORT $LL3@main 
xor eax, eax 
pop esi 
ret 0 
_main ENDP 


要 说 它 做 了 什么 ， 那 就 是 : 本 应 在 栈 上 分 配 空间 的 变量 j 被 移动 到 了 寄存 器 ESI 里 

面 。 因 为 我 们 这 样 一 个 小 函数 并 没有 这 么 多 的 本 地 变量 ， 所 以 它 才 可 以 这 么 做 。 这 
么 做 的 话 ， 一 个 重要 的 条 件 是 函数 f() 不 能 改变 ESI 的 值 。 我 们 的 编译 器 在 这 里 倒 
是 非常 确定 。 假 设 编译 器 决定 在 f〈《) 中 使 用 ESI 寄 存 器 的 话 ，ESI 的 值 将 在 函数 的 


Es cA clc here EN 弹出 ( 注 : 即 还 原 现场 ， 保 
证 程序 片段 执行 前 后 某 个 寄存 器 值 不 变 ) 这 个 操作 有 点 像 函 数 开头 和 引 RAY AY 
PUSH ESI/ POP ESI TÝN 


让 我 们 试 一 试 开 启 了 最 高 优化 的 GCC 4.4.1 (-03 优 化 ) 。 
清单 14.4: 优化 后 的 GCC 4.4.1 


main proc near 

var 10 = dword ptr -10h 
push ebp 
mov ebp, esp 
and esp, OFFFFFFFOh 
sub esp, 10h 
mov [esp*10h-var 10], 2 
call f 
mov [esp*10h-var 10], 3 
call f 
mov [esp*10h-var 10], 4 
call f 
mov [esp*10h-var 10], 5 
call f 
mov [esp+10h+var_10], 6 
call f 
mov [esp+10h+var_10], 7 
call f 
mov [esp+10h+var_10], 8 
call f 
mov [esp+10h+var_10], 9 
call f 
xor eax, eax 
leave 
retn 

main endp 


GCC 直接 把 我 们 的 循环 给 分 解 成 顺序 结构 了 。 


循环 分 解 (Loop unwinding) 对 这 些 没有 大多 eed $4 e 
的 ， 移 除 所 有 循环 结构 之 后 程序 的 效率 会 得 到 提升 。 但 是 ， 这 样 生 成 的 代码 明显 
变 得 很 大 。 


好 的 ， 现 在 我 们 把 循环 的 最 大 值 改 为 100。GCC 现 在 生成 如 下 
清单 14.5: GCC 


public main 


main proc near 
var 20 = dword ptr -20h 
push ebp 
mov ebp, esp 
and esp, OFFFFFFFOh 
push ebx 
mov ebx, 2 ; i-2 
sub esp, iCh 
nop ; aligning label loc 80484D0 (loop body begin) b 


y 16-byte border 
loc 80484D0: 


mov [esp*20h-var 20], ebx ; pass i as first argument 
to f() 
add ebx, 1 ; i++ 
call f 
cmp ebx, 64h ; i==100? 
jnz short loc_80484D0 ; if not, continue 
add esp, 1Ch 
xor eax, eax ; return 0 
pop ebx 
mov esp, ebp 
pop ebp 
retn 
main endp 


这 时 ， 代 码 看 起 来 非常 像 MSVC 2010 开 启 /Ox 优 化 后 生成 的 代码 。 除 了 这 儿 它 用 了 
EBX 来 存储 变量 i。GCC 也 确信 f () 元 数 中 不 会 修改 EBX 的 值 ， 假 如 它 要 用 到 EBX 
的 话 ， 它 也 一 样 会 在 函数 初始 化 和 收尾 时 保存 EBX 和 还 原 EBX， 就 像 这 里 main () 
函数 做 的 事情 一 样 。 


14.1.2 OllyDbg 


让 我 们 通过 /Ox 和 /Ob0 编 译 程序 ， 然 后 放 到 OllyDbg 里 面 查 看 以 下 结果 。 

看 起 来 OllyDbg 能 够 识别 简单 的 循环 ， 然 后 把 它们 放 在 一 块 ， 为 了 演示 方便 ， 大 家 
可 以 看 图 14.1。 

通过 跟踪 代码 (F8， 步 过 ) 我 们 可 以 看 到 ESI 是 如 何 递增 的 。 这 里 的 例子 是 ESI =i 
-6: 图 14.2。 

9 是 i 的 最 后 一 个 循环 制 ， 这 也 就 是 为 什么 儿 在 递增 的 最 后 不 会 触发 ， 之 后 函数 结 
束 ， 如 图 14.3。 
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图 14.1 : OllyDbg main () 开始 


CPU - main thread, module loops 2 
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图 14.2 : OllyDbg : 循环 体 刚刚 递增 了 i， 现 在 i=6 
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E 14.3 : OllyDbg 中 ESI=10， 循 环 终止 


14.1.2 x86:5R IZ 


Luc 手动 在 调试 器 里 面 跟踪 代码 并 不 是 一 件 方 便 的 事情 。 这 也 就 是 
我 给 自己 写 了 一 个 跟踪 程序 的 原因 。 


我 在 IDA 中 打开 了 编译 后 的 例子 ， 然 后 找到 了 PUSH ESI 指 令 
唯一 的 参数 ) 的 地 址 ， 对 我 的 机 器 来 说 是 0x401026， 然 后 我 运行 了 跟踪 器 


tracer.exe -l:loops 2.exe bpx-loops 2.exe!0x00401026 
BPX 的 作用 只 是 在 对 应 地 址 上 设置 断 点 然后 输出 寄存 器 状态 。 
在 tracer.log 中 我 看 到 执行 后 的 结果 : 


162 


PID-12884|New process loops 2. 
(0) loops 2.exe!0x401026 
EAX-0x00a328C8 EBX-0x00000000 
ESI-0x00000002 EDI=0x00333378 
EIP-0x00331026 

FLAGS-PF ZF IF 

(0) loops 2.exe!0x401026 
EAX-0x00000005 EBX-0x00000000 
ESI-0x00000003 EDI=0x00333378 
EIP-0x00331026 

FLAGS=CF PF AF SF IF 

(0) loops 2.exe!0x401026 
EAX-0x00000005 EBX-0x00000000 
ESI-0x00000004 EDI=0x00333378 
EIP-0x00331026 

FLAGS=CF PF AF SF IF 

(0) loops 2.exe!0x401026 
EAX-0x00000005 EBX-0x00000000 
ESI-0x00000005 EDI=0x00333378 
EIP-0x00331026 

FLAGS=CF AF SF IF 

(0) loops 2.exe!0x401026 
EAX-0x00000005 EBX-0x00000000 
ESI-0x00000006 EDI=0x00333378 
EIP-0x00331026 

FLAGS=CF PF AF SF IF 

(0) loops 2.exe!0x401026 
EAX-0x00000005 EBX-0x00000000 
ESI-0x00000007 EDI=0x00333378 
EIP-0x00331026 

FLAGS=CF AF SF IF 

(0) loops 2.exe!0x401026 
EAX-0x00000005 EBX-0x00000000 
ESI-0x00000008 EDI=0x00333378 
EIP-0x00331026 

FLAGS=CF AF SF IF 

(0) loops 2.exe!0x401026 
EAX-0x00000005 EBX-0x00000000 
ESI-0x00000009 EDI=0x00333378 
EIP-0x00331026 

FLAGS=CF PF AF SF IF 
PID-12884|Process loops 2.exe 


exe 


ECX=0x6f0f4714 
EBP=0x0024fbfc 


ECX=0x6f0a5617 
EBP=0x0024fbfc 


ECX=0x6f0a5617 
EBP=0x0024fbfc 


ECX=0x6f0a5617 
EBP=0x0024fbfc 


ECX-0x6f0a5617 
EBP=0x0024fbfc 


ECX=0x6f0a5617 
EBP=0x0024fbfc 


ECX=0x6f0a5617 
EBP=0x0024fbfc 


ECX=0x6f0a5617 
EBP=0x0024fbfc 


EDX-0x00000000 
ESP-0x0024fbb8 


EDX=0x000ee188 
ESP=0x0024fbb8 


EDX=0x000ee188 
ESP=0x0024fbb8 


EDX=0x000ee188 
ESP=0x0024fbb8 


EDX=0x000ee188 
ESP-0x0024fbb8 


EDX-0x000ee188 
ESP-0x0024fbb8 


EDX=0x000ee188 
ESP-0x0024fbb8 


EDX=0x000ee188 
ESP=0x0024fbb8 


exited. ExitCode=0 (0x0) 


我 们 可 以 看 到 ESI 寄 存 器 是 如 何 从 2 变 为 9 的 。 

甚至 于 跟踪 器 可 以 收集 某 个 函数 调用 内 所 有 寄存 器 的 值 ， 所 以 它 被 叫做 跟踪 器 (a 

trace) 。 每 个 指令 都 会 被 它 跟 踪 上 ， 所 有 感 兴趣 的 寄存 器 值 都 会 被 它 提示 出 来 ， 然 
后 收集 下 来 。 然后 可 以 生成 IDA 能 用 的 .idc-script。 所 以 ， 在 IDA 中 我 知道 了 main() 

函数 地 址 是 0x00401020， 然 后 我 执行 了 : 


tracer.exe -l:loops 2.exe bpf-loops 2.exe!0x00401020,trace:cc 


bpf 的 意思 是 在 函数 上 设置 断 点 


结果 是 我 得 到 了 loops 2.exe.idcfeloops 2.exe_clear.idc 两 个 脚本 。 我 加 载 
loops 2jidc 到 IDA 中 ， 然 后 可 以 看 到 图 12.4 所 示 的 内 容 。 


我 们 可 以 看 到 ESI 在 循环 体 开 始 时 从 2 变化 为 9， 但 是 在 递增 完 之 后 ， 它 的 值 从 9 ( 译 
注 : 作者 原文 是 3， 但 是 揣测 是 笔 误 ， 应 为 9。) ZATOA (10) 。 我 们 也 可 以 看 
到 main () 函数 结束 时 EAX 被 设置 为 了 0 。 


编译 器 也 生成 了 loops_2.exe.txt， 包 含有 每 个 指令 执行 了 多 少 次 和 寄存 器 值 的 一 
信息 : 


清单 14.6: loops 2.exe.txt 


0x401020 (.text+0x20), e= 1 [PUSH ESI] ESI-1 

0x401021 (.text+0x21), e= 1 [MOV ESI, 2] 

0x401026 (.text+0x26), e= 8 [PUSH ESI] ESI-2..9 

0x401027 (.text-0x27), e= 8 [CALL 8D1000h] tracing nested maximu 
m level (1) reached, 

skipping this CALL 8D1000h-0x8d1000 


0x40102c (.text+Ox2c), e= 8 [INC ESI] ESI-2..9 

0x40102d (.text+0x2d), e= 8 [ADD ESP, 4] ESP-0x38fcbc 

0x401030 (.text+0x30), e= 8 [CMP ESI, QAh] ESI-3..0xa 

0x401033 (.text-0x33), e- 8 [JL 8D1026h] SF-false,true OF-false 
0x401035 (.text+0x35), e= 1 [XOR EAX, EAX] 

0x401037 (.text+0x37), e= 1 [POP ESI] 

0x401038 (.text+0x38), e= 1 [RETN] EAX=0 


生成 的 代码 可 以 在 此 使 用 : 


.text: 
.text:00401020 ; SUBROUTINE 
.text: 
.text: 

„text: ; int _ cdecl main(int argc, const char wwargu，const char **enup) 

„text: „Main proc near ; CODE XREF: —— tnainCRTStartup*11D]p 
.text: 
„text: 
„text: 
„text: 
«text: 
«text: push esi ; ESI*1 










argc = dword ptr 4 
argu = dword ptr 8 
enup = dword ptr OCh 


.text : 00401021 nou esi, 2 

.text:00401026 

.text:004018026 loc 401826: ; CODE XREF:  main*13Jj 
.text:00401026 push esi ; ESI=2..9 

.text:00401027 call sub 401000 ; tracing nested maximum level (1) reached, 
.text:0040102C inc esi > ESI=2..9 

«text: 00401020 add esp, ^ ; ESP- üx3BfÉcbc 
.text:00401030 cnp esi, mh ; ESI=3..8xa 
.text:00501033 jl short loc_401026 ; SF=false,true OF=false 
- text: 00401035 xor eax, eax 

«text: 66401637 pop esi 

- text: 00401038 retn ; EAX-0 

.text:00401038 main endp 


图 14.4 : IDA 加 载 了 .idc-script 之 后 的 内 容 


14.1.4 ARM 


无 优化 Keil + ARM 模 式 


main 
STMFD  SP!, {R4,LR} 
MOV RA, #2 
B loc 368 
, 
loc. 35C ; CODE XREF: main-1C 
MOV RO, R4 
BL f 
ADD R4, R4, #1 
loc_368 ; CODE XREF: main+8 
CMP R4, #0XA 
BLT loc 35C 
MOV RO, #0 


LDMFD — SP!, {R4,PC} 


和 迭代 计数 器 ij 存储 到 了 R4 寄 存 器 中 。 


MOV R4, 4223036161 ° 

MOV RO,R4 和 BL f 指令 组 成 循环 体 ， 第 一 个 指令 为 () 准备 参数 ， 第 二 个 用 来 调 
用 它 。 

ADD R4,R4, #1 指令 在 每 次 迭代 中 为 IT 加 一 。 

CMP R4, #0xA 将 1 和 0xA (10) 比较 ， 下 一 个 指令 BLT (Branch Less Than， 分 支 
小 于 ) 将 在 i<10 时 跳 转 。 

否则 ， RO 将 会 被 写 入 0 (因为 我 们 的 函数 返回 0) ， 然 后 函数 执行 终止 。 


优化 后 的 Keil + ARM 模 式 


_main 
PUSH {R4, LR} 
MOVS R4, #2 

loc 132 ; CODE XREF: | main-E 
MOVS RO, R4 
BL example7 f 
ADDS RA, R4, #1 
CMP R4, #0XA 
BLT loc_132 
MOVS RO, #0 
POP {R4, PC} 


事实 上 ， 是 一 样 的 。 


优化 后 的 Xcode (LLVM) +thumb-2 模式 


main 
PUSH (RA, R7, LR} 
MOVW R4, #0x1124 ; "96d 


MOVS R1, #2 
MOVT.W R4, #0 


ADD R7, SP, #4 
ADD RA, PC 
MOV RO, R4 
BLX _printf 
MOV RO, R4 
MOVS R1, #3 
BLX _printf 
MOV RO, R4 
MOVS R1, #4 
BLX _printf 
MOV RO, R4 
MOVS R1, #5 
BLX _printf 
MOV RO, R4 
MOVS R1, #6 
BLX _printf 
MOV RO, R4 
MOVS R1, #7 
BLX _printf 
MOV RO, R4 
MOVS R1, #8 
BLX _printf 
MOV RO, R4 
MOVS R1, #9 
BLX _printf 
MOVS RO, #0 
POP {R4,R7,PC} 


事实 上 ，printf 是 在 我 的 f ( ) 函数 里 调用 的 : 


void f(int i) 


// do something here 
printf ("%d", i); 
}; 


所 以 ，LLVM 不 仅仅 是 拆 解 了 (unroll) 循环 ， 而 且 还 把 我 的 短 函 数 f ( ) 给 作为 内 联 
函数 看 待 了 ， 这 样 ， 它 把 它 的 函数 体内 插 了 8 人 遍 ， 而 不 是 用 一 个 循环 来 解决 。 对 于 
我 们 这 种 简短 的 函数 来 说 ， 编 译 器 这 样 做 是 有 可 能 的 。 


ARM64: Optimizing GCC 4.9.1 
ARM64: Non-optimizing GCC 4.9.1 
14.1.5 MIPS 


14.1.6 更 多 的 一 些 事情 


在 编译 器 生成 的 代码 里 面 ， 我 们 可 以 发 现在 ij 初始 化 之 后 ， 循 环 体 并 不 会 被 执行 ， 转 
而 是 先 检查 i 的 条 件 ， 在 这 之 后 才 开 始 执行 循环 体 。 这 么 做 是 正确 的 ， 因 为 ， 如 果 循 
环 条 件 在 一 开始 就 不 满足 ， 那 么 循环 体 是 不 应 当 被 执行 的 。 比 如 ， 在 下 面 的 例子 
中 ， 就 可 能 出 现 这 个 情况 : 


for (i=0; i«total entries to process; i++) 
loop body; 


如 果 total _entries_to_process 等 于 0， 那 么 循环 体 就 不 应 该 被 执行 。 这 就 是 为 什么 
应 当 在 循环 体 被 执行 之 前 检查 循环 条 件 。 但 是 ， 开 局 编译 器 优化 之 后 ， 如 果 编 译 器 
确定 不 会 出 现 上 面 这 种 情况 的 话 ， 那 么 条 件 检 查 和 循环 体 的 语 多 可 能 会 互 换 (比如 
我 们 上 面 提 到 的 简单 的 例子 以 及 Keil、Xcode (LLVM) 、MSVC 的 优化 模式 ) 。 


14.2 内 存 块 复制 程序 
14.2.1 直接 实现 

14.2.2 ARM in ARM mode 
14.2.3 MIPS 

14.2.4 向 量化 

14.3 小 结 


14.4 练习 


第 十 五 草 
对 C-Strings 的 简单 处 理 


15.1 strlen() 


SLE > TERA AA REA o GH > strlen() BAE Wwhile()R KHL » 3x SEE 
MSVC 标 准 库 中 strlen 的 做 法 : 


int my strlen (const char * str) 
const char *eos - str; 
while( *eos++ ) ; 
return( eos - str - 1); 

int main() 
// test 


return my strlen("hello!"); 


HH 


15.1 x86 


无 优化 的 MSVC 
让 我 们 编译 一 下 : 


_eos$ = -4 ; size = 4 
_str$ = 8 ; size = 4 
_strilen PROC 

push ebp 

mov ebp, esp 

push ecx 

mov eax, DWORD PTR  str$[ebp] ; 
g from str 

mov DWORD PTR _eos$[ebp], eax ; 
able eos 
$LN2@strlen_: 

mov ecx, DWORD PTR _eos$[ebp] 


; take 8-bit byte from address in ECX 
value to EDX with sign extension 


movsx edx, BYTE PTR [ecx] 


mov eax, DWORD PTR _eos$[ebp] E 

add eax, 1 ; increment EAX 

mov DWORD PTR _eos$[ebp], eax à 

test edx, edx ; 

je SHORT $LN1@strlen_ : 

jmp SHORT $LN2@strlen_ ; 
$LN1@strlen_: 


place pointer to strin 


place it to local varu 


ECX-eos 


and place it as 32-bit 


EAX-eos 


place EAX back to eos 
EDX is zero? 

yes, then finish loop 
continue loop 


; here we calculate the difference between two pointers 


mov eax, DWORD PTR . eos$[ebp] 

sub eax, DWORD PTR _str$[ebp] 

sub eax, 1 : 
result 

mov esp, ebp 

pop ebp 

ret 0 


 Strlen  ENDP 


subtract 1 and return 


我 们 看 到 了 两 个 新 的 指令 : MOVSX (J,13.1.1 $ ) 和 TEST ° 


关于 第 一 个 : MOVSX 用 来 从 内 存 中 取出 字 节 然后 把 它 放 到 一 个 32 位 寄存 器 中 。 
MOVSX 意 味 着 MOV with Sign-Extent 〈 带 符号 扩展 的 MOV 操 作 ) 。MOVSX 操 作 
下 ， 如 果 复 制 源 是 负数 ， 从 第 8 到 第 31 的 位 将 被 设 为 1， 否 则 将 被 设 为 0。 


现在 解释 一 下 为 什么 要 这 么 做 。 


C/C++ 标准 将 char (译注 : 1 字 节 ) 类 型 定义 为 有 符号 的 。 如 果 我 们 有 2 个 值 ， 一 个 
是 char， 另 一 个 是 int (int 也 是 有 符号 的 ) ， 而 且 它 的 初 值 是 -2 (被 编码 为 0xFE) ， 
我 们 将 这 个 值 拷贝 到 int (译注 : 一 般 是 4 字 节 ) 中 时 ，int 的 值 将 是 0x000000FE， 这 
时 ，int 的 值 将 是 254 而 不 是 -2。 因 为 在 有 符号 数 中 ，-2 被 编码 为 0xFFFFFFFE © 所 
以 ， 如 果 我 们 需要 将 0xFE 从 char 类 型 转换 为 int 类 型 ， 那 么 ， 我 们 就 需要 识别 它 的 符 


号 并 扩展 它 。 这 就 是 MOVSX 所 做 的 事情 。 


请 参见 章节 “有 符号 数 表示 方法 "。 (35%) 

我 不 太 确定 编译 器 是 否 需要 将 char 变 量 存储 在 EDX 中 ， 它 可 以 使 用 其 中 8 位 〈 我 的 
意思 是 DL 部 分 ) 。 显 然 ， 编 译 器 的 寄存 器 分 配器 就 是 这 么 工作 的 。 

然后 我 们 可 以 看 到 TEST EDX, EDX。 关 于 TEST 指令 ， 你 可 以 阅读 一 下 位 这 一 节 
(17 章 ) 。 但 是 现在 我 想 说 的 是 ， 这 个 TEST 指令 只 是 检查 EDX 的 值 是 否 等 于 0 。 


无 优化 的 GCC 


让 我 们 在 GCC 4.4.1 下 测试 : 


public strlen 
strlen proc near 


eos = dword ptr -4 
arg_0 = dword ptr 8 
push ebp 
mov ebp, esp 
sub esp, 10h 
mov eax, [ebp-*arg 0] 
mov [ebpt+eos], eax 


loc_80483F0: 
mov eax, [ebp+eos ] 
movzx eax, byte ptr [eax] 
test al, al 
setnz al 


add [ebpt+eos], 1 
test al, al 

jnz short loc 80483F0 
mov edx, [ebp+eos ] 
mov eax, [ebp+arg 0] 
mov ecx, edx 

sub ecx, eax 

mov eax, ecx 

sub eax, 1 

leave 

retn 


strlen endp 


可 以 看 到 它 的 结果 和 MSVC 几 乎 相同 ， 但 是 这 儿 我 们 可 以 看 到 它 用 MOVZX 代 蔡 了 
MOVSX。 MOVZX 代 表 着 MOV with Zero-Extend (0 位 扩展 MOV) 。 这 个 指令 将 8 
位 或 者 16 位 的 值 拷 贝 到 32 位 寄存 器 ， 然 后 将 剩余 位 设置 为 0。 事实 上 ， 这 个 指令 比 
较 方便 的 原因 是 它 将 两 条 指令 组 合 到 了 一 起 : xor eax,eax / mov al, [...] ° 

另 一 方面 来 说 ， 显 然 这 里 编译 器 可 以 产生 如 下 代码 : moval, byte ptr [eax] / test al, 


al， 这 几乎 是 一 样 的 ， 但 是 ，EAX 高 位 将 还 是 会 有 随机 的 数值 存在 。 但 是 我 们 想 一 
想 就 知道 了 ， 这 正 是 编译 器 的 劣势 所 在 一 一 它 不 能 产生 更 多 能 让 人 容易 理解 的 代 


码 。 严 格 的 说 ， 事 实 上 编译 器 也 并 没有 义务 为 人 类 产生 易于 理解 的 代码 。 


还 有 一 个 新 指令 ，SETNZ » 3x €. » 49 XAL&, &3E0 > test al, al 将 设置 ZF 标记 位 为 
0。 但 是 SETNZ 中 ， 如 果 ZF == 0 (NZ € €& X 3E > NotZero) ，AL 将 设置 为 
1。 用 自然 语言 描述 一 下 ， 如 果 AL 非 0， 我 们 就 跳 转 到 loc 80483F0。 编 译 器 生成 了 
少量 的 完 余 代码 ， 不 过 不 要 忘 了 我 们 已 经 把 优化 给 关 了 。 


优化 后 的 MSVC 


让 我 们 在 MSVC 2012 下 编译 ， 打 开 优 化 选项 /Ox : 
清单 15.1: MSVC 2010 /Ox /ObO 


_str$ = 8 ; size = 4 
_strlen PROC 
mov edx, DWORD PTR _str$[esp-4] ; EDX -> 指向 字符 
的 指针 
mov eax, edx ; 移动 到 EAX 
$LL2@strlen: 
mov cl, BYTE PTR [eax] ; CL = *EAX 
inc eax ; EAX++ 
test clc ; CL--0? 
jne SHORT $LL2@strlen ; 否 ， 继 续 循环 
sub eax, edx ; 计算 指针 差异 
dec eax ; 递减 EAX 
ret 0 


_strlen ENDP 


现在 看 起 来 就 更 简单 点 了 。 但 是 没有 必要 去 说 编译 器 能 在 这 么 小 的 函数 里 面 ， 如 此 
有 效率 的 使 用 如 此 少 的 本 地 变量 ， 特 殊 情 况 而 已 。 


INC /DEC 是 递增 /递减 指令 ， 或 者 换 名 话说， 给 变量 加 一 或 者 减 一 。 


优化 后 的 MSVC + OllyDbg 


化 : 图 15.1。 我们 可 以 看 到 OllyDbg 


找到 了 一 个 循环 ， 然 后 为 了 方便 观看 ，OllyDbg 把 它们 环绕 在 一 个 方 格 区 域 中 了 。 
在 EAX 上 右键 点 击 ， 我 们 可 以 选择 “Follow in Dump”， 然 后 内 存 窗口 的 位 置 将 会 跳 
转 到 对 应 位 置 。 我 们 可 以 在 内 存 中 看 到 这 里 有 一 个 “hello ! "的 字符 串 。 在 它 之 后 至 
少 有 一 个 0 字 节 ， 然 后 就 是 随机 的 数据 。 如 果 OllyDbg 发 现 了 一 个 寄存 器 是 一 个 指向 
字符 串 的 指针 ， 那 么 它 会 显示 这 个 字符 串 。 


让 我 们 按 下 F8 ( 步 过 ) 多 次 ， 我 们 可 以 看 到 当前 地 址 的 游标 将 在 循环 体 中 回 到 开始 
的 地 方 : 图 15.2。 我 们 可 以 看 到 EAX 现在 包含 有 字符 串 的 第 二 个 字符 。 


对 C-Strings 的 简单 处 理 


我 们 继续 按 F8， 然 后 执行 完整 个 循环 : 图 15.3。 我 们 可 以 看 到 EAX 现在 包含 空 字符 
() 的 地 址 ， 也 就 是 字符 串 的 末尾 。 MM pude 全 有 改变 ， 所 以 它 还 是 指向 字符 
串 的 最 开始 的 地 方 。 现 在 它 就 可 以 计算 这 两 个 寄存 器 的 差 值 了 。 


然后 SUB 指 令 会 被 执行 : 图 15.4。 差 值 保存 在 EAX 中 ， 为 7。 但是， 字符 

# "hello!" 的 长 度 是 6， 这 儿 7 是 因为 包含 了 末尾 的 。 但 是 strlen () 函数 必须 返回 非 0 
部 分 字符 串 的 长 度 ， 所 以 在 最 后 还 是 要 给 EAX 减 去 1， 然 后 将 它 作 为 返回 值 返 回 ， 
退出 函数 。 


CPU - main thread, module ex1 


ASCII “hellot” 


e«1. 01001606 


32bit G(FFFFFFFE) 
it G(FFFFFFFF) 

B 32bit B(FFFFFFFF) 
B Sebit O(FFFFFFFF) 


RETURN to ex1.010D122F from é 


G86BR370| ASCII "wok" 
ne 
; 1 97 
Pu “PRk 。 3 eoaoocooa 
.. s .. 0000000 


8e1SrDRe| 7EFDEB66 
ren nnn anicennal Gand 


图 15.1 : 第 一 次 循环 迭代 起 始 位 置 
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SS 32bit O(FFFFFFFF) 
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99900091 
ASCII "xnk" 


CPU - main thread, module ex1 
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it G(FFFFFFFF) 
it G(FFFFFFFF) 
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图 15.3 : 现在 要 计算 二 者 的 差 了 
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图 15.4 : EAX 需要 减 一 
优化 过 的 GCC 
让 我 们 打开 GCC 4.4.1 的 编译 优化 选项 (-O3) 


public strlen 
strlen proc near 


arg O0 - dword ptr 8 
push ebp 
mov ebp, esp 
mov ecx, [ebp+arg 0] 
mov eax, ecx 


loc 8048418: 
movzx edx, byte ptr [eax] 


add eax, 1 

test dl, dl 

jnz short loc 8048418 
not ecx 

add eax, ecx 

pop ebp 

retn 


strlen endp 


这 儿 GCC 和 MSVC 的 表现 方式 几乎 一 样 ， 除 了 MOVZX 的 表达 方式 。 
但 是 ， 这 里 的 MOVZX 可 能 被 替换 为 mov dl, byte ptr [eax] ° 


"T8 EX A A GCC TE 38 来 说 ， 生 成 此 种 代码 会 让 它 更 容易 记 住 整个 寄存 器 已 经 分 
配给 char 变 量 了 ， 然 后 因此 它 就 可 以 确认 高 位 在 任何 时 候 都 不 会 有 任何 干扰 数据 的 
存在 了 。 


之 后 ， 我 们 可 以 看 到 新 的 操作 符 NOT。 这 个 操作 符 把 操作 数 的 所 有 位 全 部 取 反 。 可 
以 说 ， 它 和 XOR ECX, 0fffffffth 效 果 是 一 样 的 。NOT 和 接 下 来 的 ADD 指 令 计算 差 值 然 
后 将 结果 减 一 。 在 最 开始 的 ECX 出 存储 了 str 的 指针 ， 翻转 之 后 会 将 它 的 值 减 一 ° 


请 参考 “有 符号 数 的 表达 方式 "”。 (535€) 

换 句 话说 ， 在 函数 最 后 ， 也 就 是 循环 体 后 面 其 实 是 做 了 这 样 一 个 操作 : 
ecx-str; 
eax-eos; 
ecx=(-ecx)-1; 


eax=eaxtecx 
return eax 


这 样 做 其 实 几 乎 相等 于 : 


ecx-str; 
eax-eos; 
eax-eax-ecx; 
eax-eax-1; 
return eax 


为 什么 GCC 会 认为 它 更 棒 呢 ? 我 不 能 确定 ， 但 是 我 确定 上 下 两 种 方式 都 应 该 有 相同 
的 效率 。 


15.1.2 ARM 
32-bit ARM 


无 优化 Xcode (LLVM) + ARM 模 式 


清单 15.2: 无 优化 的 Xcode (LLVM) + ARM 模 式 


_strlen 


eos = -8 
str = -4 
SUB SP, SP, #8 ; allocate 8 bytes for local variable 
S 
STR RO, [SP,#8+str] 
LDR RO, [SP,#8+str] 
STR RO, [SP,#8+eos] 
loc 2CB8 ; CODE XREF: _strlen+28 
LDR RO, [SP,48-*eos] 
ADD R1, RO, #1 
STR R1, [SP,#8+eos] 
LDRSB RỌ, [RO] 
CMP RO, #0 
BEQ loc 2CD4 
B loc 2CB8 
, 
loc 2CD4 ; CODE XREF: _strlen+24 
LDR RO, [SP, 48*eos] 
LDR R1, [SP,#8+str] 
SUB RO, RO, R1 ; RO-eos-str 
SUB RO, RO, £1 ; RO-RO-1 
ADD SP, SP, £8 ; deallocate 8 bytes for local variab 
les 
BX LR 


XM, 89 LEVM A R, T AS 83488 o 48 o 3X XI] 9T VA, 8] S CI e f] REX 
理 本 地 变量 的 。 我 们 的 函数 里 只 有 两 个 本 地 变量 ，e0S 和 str。 


在 这 个 IDA 生 成 的 列表 里 ， 我 把 var 8 和 var 4 命名 为 了 eos 和 str。 
所 以 ， 第 一 个 指令 只 是 把 输入 的 值 放 到 Str 和 eos 里 。 
循环 体 从 loc_2CB8 标 签 处 开始 。 


循环 体 的 前 三 个 指令 (LDR ` ADD ` STR) 将 eos 的 值 载 入 RO， 然 后 值 会 加 一 ， 然 
后 存 回 栈 上 本 地 变量 eos 。 


下 一 条 指令 “LDRSB RO, [RO]" (Load Register Signed Byte， 读 取 寄 存 器 有 符号 
FZ) 将 从 R0 地 址 处 读 取 一 个 字 节 ， 然 后 把 它 符号 扩展 到 32 位 。 这 有 点 像 是 x86 里 的 
MOVSX Žž: ( 见 13.1.1 节 ) 。 因 为 char 在 C 标 准 里面 是 有 符号 的 ， 所 以 编译 器 也 把 
这 个 字 节 当 作 有 符号 数 。 我 已 经 在 13.1.1 节 写 了 这 个 ， 虽 然 那里 是 相对 X86 来 说 的 。 
需要 注意 的 是 ， 在 ARM 里 会 单独 分 割 使 用 8 位 或 者 16 位 或 者 32 位 的 寄存 器 ， 就 像 
X86 一 样 。 显 然 ， 这 是 因为 x86 有 一 个 漫长 的 历史 上 的 兼容 性 问题 ， 它 需要 和 他 的 前 
身 : 16 位 8086 处 理 器 甚至 8 位 的 8080 处 理 器 相 兼 容 。 但 是 ARM 确 是 从 32 位 的 精简 
指令 集 处 理 器 中 发 展 而 成 的 。 因 此 ， 为 了 处 理 单 独 的 字 节 ， 程 序 必 须 使 用 32 位 的 寄 
存 器 。 所 以 LDRSB 一 个 接 一 个 的 将 符号 从 字符 串 内 载 入 RO0， 下 一 个 CMP 和 BEQ 指 


令 将 检查 是 否 读 入 的 符号 是 0， 如 果 不 是 0， 控 制 流 将 重新 回 到 循环 体 ， 如 果 是 0， 
那么 循环 结束 。 在 函数 最 后 ， 程 序 会 计算 eos 和 str 的 差 ， 然 后 减 一 ， 返 回 值 通过 R0 
返回 。 


注意 : 这 个 函数 并 没有 保存 寄存 器 。 这 是 因为 由 ARM 调 用 时 的 转换 ，RO-R3 寄 存 器 
是 “临时 寄存 器 ”(scratch register) ， 它 们 只 是 为 了 传递 参数 用 的 ， 它 们 的 值 并 不 
会 在 济 数 退出 后 保存 ， 因 为 这 时 候 函 数 也 不 会 再 使 用 它们 。 因 此 ， 它 们 可 以 被 我 们 
用 来 做 任何 事情 ， 而 这 里 其 他 寄存 器 都 没有 使 用 到 ， 这 也 就 是 为 什么 我 们 的 栈 上 事 
实 上 什么 都 没有 的 原因 。 因 此 ， 控 制 流 可 以 通过 简单 跳 转 (BX) 来 返回 调用 的 函 
数 ， 地 址 存在 LR 寄存 器 中 。 


优化 后 的 Xcode (LLVM) + thumb 模式 


清单 13.3: 优化 后 的 Xcode (LLVM) + thumb 模 式 


_strlen 
MOV R1, RO 
loc_2DF6 ; CODE XREF:  strlen-8 
LDRB.W R2, [R1], #1 
CMP R2, #0 
BNE loc 2DF6 
MVNS RO, RO 
ADD RO, R1 
BX LR 


在 优化 后 的 LLVM 中 ， 为 eos 和 str 准 备 的 栈 上 空间 可 能 并 不 会 分 配 ， 因 为 这 些 变量 可 
以 永远 正确 的 存储 在 寄存 器 中 。 在 循环 体 开 始 之 前 ，str 将 一 直 存 储 在 RO 中 ，eos 在 
R1 中 。 


"LDRB.W R2, [R1],#1" 指令 从 R1 内 存 中 读 取 字 节 到 R2 里 ， 按 符号 扩展 成 32 位 
的 值 ， 但 是 不 仅仅 这 样 。 在 指令 最 后 的 #1 被 称 为 “后 变 址 ”(Post-indexed 
address) ， 这 代表 着 在 字 节 读 取 之 后 ，R1 将 会 加 一 。 这 个 在 读 取 数 组 时 特别 方 
便 。 


在 X86 中 这 里 并 没有 这 样 的 地 址 存 取 方 式 ， 但 是 在 其 他 处 理 器 中 却 是 有 的 ， 甚 至 在 
PDP-11 里 也 有 。 这 是 PDP-11 中 一 个 前 增 、 后 增 、 前 减 、 后 减 的 例子 。 这 个 很 像 是 
C 语 言 ( 它 是 在 PDP-11 上 开发 的 ) 中 “罪恶 的 "语句 形式 ptrt++、++ptr、ptr--、--ptr。 
顺带 一 提 ，C 的 这 个 语法 丨 的 很 难 让 人 记 住 。 下 为 具体 拖 述 : 


C 形 式 ARM 形 式 C 语 法 工作 方式 


后 增 后 变 址 *ptr4 + 使 用 *ptr 
然后 ptr 加 一 
后 减 后 变 址 *ptr-- 使 用 *ptr 
然后 ptr 减 一 
前 增 前 变 址 * 十 十 Ptr ptr 加 一 
然后 使 用 *ptr 
前 减 前 变 *--ptr ptr 减 一 
然后 使 用 *ptr 


C 语 言 作者 之 一 的 Dennis Ritchie 提 到 了 这 个 可 能 是 由 于 另 一 个 作者 Ken Thompson 
开发 的 功能 ， 因 此 这 个 处 理 器 特性 在 PDP- (参考 资料 [28][29]) 。 
此 ，C 语 言 编译 器 将 在 处 理 器 支持 这 种 指令 时 使 用 它 


然后 可 以 指出 的 是 循环 体 的 CMP 和 BNE， 这 两 个 指令 将 一 直 处 理 到 字符 囊 中 的 0 出 
现 为 止 。 


MVNS (翻转 所 有 位 ， 也 即 x86 的 NOT) 令 和 ADD 指 令 计 算 cos-str-1. TA | d 
两 个 指令 计算 出 RO=str+cos 。 为 什么 他 要 这 么 做 的 原 
因 我 在 13.1.5 节 已 经 说 过 了 。 


显然 ，LLVM， 就 像 是 GCC 一 样 ， 会 把 代码 变 得 更 短 或 者 更 快 


优化 后 的 Keil + ARM 模式 


清单 15.4: 优化 后 的 Keil + ARM 模 式 


_strlen 
MOV R1, RO 

loc 2C8 ; CODE XREF: _strlen+14 
LDRB R2, [R1], #1 
CMP R2, #0 


SUBEQ RỌ, Ri, RO 
SUBEQ RỌ, RO, #1 
BNE loc 2C8 


这 个 和 我 们 之 前 看 到 的 几乎 一 样 ， 除 了 str-cos-1 这 个 表达 式 并 不 在 函数 末尾 计 草 ， 
而 是 被 调 到 了 循环 体 中 间 。 可 以 回忆 一 下 -EQ 后 级 ， 这 个 代表 指令 仅仅 会 在 CMP 执 
行 之 前 的 语句 互相 相等 时 才 会 执行 。 因 此 ， 如 果 R0 的 值 是 0， 两 个 SUBEQ 指 令 都 会 
执行 ， 然 后 结果 会 保存 在 RO 寄存 器 中 。 


ARM64 


Optimizing GCC (Linaro) 4.9 
Non-optimizing GCC (Linaro) 4.9 


15.1.3 MIPS 


第 十 六 章 

用 其 他 东西 代替 算术 指令 
16.1 乘法 
16.1.1 用 加 法 代替 乘法 

16.2 除法 
16.2.1 用 移 位 代替 除法 


16.3 练习 


第 十 七 章 


p» ` 一 
iF RBA 


FPU 是 一 个 主 cpu 被 设计 用 来 处 理 浮 点 数 的 设备 。 


过 去 它 被 称 为 协 处 理 器 ， 放 在 CPU 汰 边 ， 看 起 来 像 可 编程 的 计算 器 ， 在 学 习 FPU 之 
前 学 习 堆 栈 机 或 forth 语 言 是 值得 的 。 


17.1 IEEE 754 


x96 

有 趣 的 是 ， 在 过 去 (80486cpu 之 前 ) ， 协 处 理 器 是 一 个 单独 的 芯片 ， 并 不 总 是 安装 

在 母 版 上 ， 单 独 购买 和 安装 也 是 可 以 的 。 

但 从 80486 DX CPU 开始 ,FPU 就 被 安装 在 里 面 了 。 

FWAIT 指 令 可 能 提醒 我 们 一 个 事实 一 一 它 将 CPU 转换 成 等 待 模式 ， 因 此 它 可 以 一 直 
等 待 直到 FPU 完 成 工作 。 另 外 一 点 是 FPU 指 令 操 作 码 从 所 谓 的 escape 操 作 码 
(D8..DF) 开始 ， 进 入 了 FPU 。 


FPU 有 可 以 容纳 8 个 80 字 节 的 寄存 器 栈 容量 ， 每 一 个 寄存 器 可 以 存储 一 个 IEEE 754 
格式 的 数字 。 


C/C++ 语 言 提供 至 少 两 种 浮 点 数 类 型 ，float ( 单 精度 ，32 位 ) ，double 类 型 ( 双 精 
度 ，64 位 ) 。 


GCC 也 支持 多 精度 类 型 《扩展 精度 ，80 位 ) ， 但 是 MSVC 不 支持 。 
在 32 位 环境 中 ， 浮 点 数 要 求 和 int 类 型 的 位 数 相同 ， 但 是 数值 的 表示 法 完全 不 同 。 
数值 包括 符号 位 ， 尾 数 (也 叫做 分 数 ) 和 指数 。 


参数 列表 中 有 float 和 double 类 型 的 函数 通过 栈 来 获得 值 ， 如 果 函 数 返 回 float 或 者 
double 类 型 的 值 ， 那 么 返回 值 将 放 在 ST(0) 寄 存 器 中 一 一 在 FPU 的 栈 顶 。 


17.3 ARM,MIPS,x86/x64 SIMD 
C/C++ 


17.5 简单 实例 


下 面 我 们 来 研究 一 个 简单 的 例子 


double f (double a, double b) 
{ 


} 


return a/3.14 + b*4.1; 


17.5.1 x86 


msvc 


在 msvc2010 中 编译 


CONST SEGMENT 
__real@4010666666666666 DQ 04010666666666666r ; 4.1 
CONST ENDS 

CONST SEGMENT 
. real@40091eb851eb851f DQ 040091eb851eb851fr a saa 
CONST ENDS 

TEXT SEGMENT 


_a$ = 8 p OA B 
_b$ = 16 ; size = 8 
_f PROC 
push ebp 
mov ebp, esp 
fld QWORD PTR  a$[ebp] 
; current stack state: ST(0) = a 


fdiv QWORD PTR __real@40091eb851eb851F 
; current stack state: ST(0) = result of _a divided by 3.13 
fld QWORD PTR _b$[ebp] 


; current stack state: ST(0) = b; ST(1) = result of _a divided 
by 3.13 


fmul QWORD PTR __real@4010666666666666 


; current stack state: ST(0) = result of b * 4.1; ST(1) = resul 
t of _a divided by 3.13 


faddp  ST(1), ST(0) 


; current stack state: ST(0) = result of addition 


pop ebp 
ret 0 
f ENDP 


FLD 从 栈 中 取 8 个 字 节 并 将 这 个 数字 放 入 ST(0) 寄 存 器 中 ， 自 动 将 它 转换 成 内 部 80 位 
格式 的 扩展 操作 数 。 


FDIV 除 存储 在 ST(0) 中 地 址 指向 的 数值 _real@40091eb851eb851f 一 3.14 就 放 在 
那里 。 


汇编 语法 丢失 浮 点 数 ， 因 此 ， 我 们 这 里 看 到 的 是 64 位 |EEE754 编 码 的 16 进 制 表示 的 
3.14 » 


执行 FDIV 执 行 后 ，ST(0) 将 保存 除法 的 结果 。 


另外 ， 这 里 也 有 FDIVP 指 令 ， 用 ST(0) 除 ST(1)， 从 栈 中 将 将 这 些 值 抛 出 来 ， 然 后 将 
结果 压 栈 。 如 果 你 懂 forth 语 言 ， 你 会 很 快意 识 到 这 是 堆栈 机 。 


FLD 指 令 将 b 的 值 压 入 栈 中 之 后 ， 商 放 入 ST(1) 寄 存 器 中 ，ST(0) 中 保存 b 的 值 。 


接 下 来 FMUL 指 令 将 来 自 ST(0) 的 b 值 和 在 real@4010666666666666 (4.1 的 值 在 
那里 ) 相 乘 ， 然 后 将 结果 放 入 ST (0) Fe 


最 后 ，FADDP 指 令 将 栈 顶 的 两 个 值 相 加 ， 将 结果 存储 在 ST(1) 寄 存 器 中 ， 然 后 从 
ST (1) 中 弹出 ， 再 放 入 ST(0) 中 。 


这 个 函数 必须 返回 ST(0) 寄 存 器 中 的 值 ， 因此 ， 在 执行 FADDP 命 令 后 ， 没 有 其 他 额 
外 的 的 指令 了 需要 执行 了 。 


GCC 4.4.1 (选项 03) 生成 基本 同样 的 代码 ， 有 小 小 的 不 同 之 处 。 


不 同 之 处 在 于 ， 首 先 ，3.14 被 压 入 栈 中 (进入 ST(0)) ,然后 arg_0 的 值 除 以 ST(0) 寄 
存 器 中 的 值 


FDIVR 意味 着 逆向 除法 被 除数 和 除数 交换 。 

因为 乘法 两 个 乘 数 可 交换 ， 所 以 没有 这 样 的 指令 ， 我 们 只 有 FMUL 而 没有 逆 乘 。 
FADDP 也 是 将 两 个 值 相 加 ， 其 中 一 个 来 自 栈 。 然 后 ST(0) 保 存 它们 的 和 。 

这 段 反 编译 代码 的 碎片 是 由 IDA 产 生 的 ，ST(0) 简 称 为 ST 。 


MSVC + OllyDbg 
GCC 


17.5.2 ARM: Xcode 优化 模式 (LLVM)+ARM 模式 


直到 ARM 有 标准 化 的 浮 点 数 支持 后 ， 几 家 处 理 器 厂商 才 将 其 加 入 到 他 们 自己 指令 扩 
展 中 。 然 后 ，VFP (向 量 浮 点 运算 单元 ) 标准 化 了 。 


与 X86 相 比 ， 一 个 重要 的 不 同 是 ， 在 x86 中 使 用 fpu 栈 工作 ， 而 在 ARM 中 ， 这 里 没有 
栈 ， 你 只 能 使 用 寄存 器 。 


f 
VLDR D16, =3.14 
VMOV D17, RO, R1 ; load a 
VMOV D18, R2, R3 ; load b 
VDIV.F64 D16, D17, D16 ; a/3.14 
VLDR D17, =4.1 


VMUL . F64 D17, D18, D17 ; b*4.1 
VADD. F64 D16, D17, D16 ; + 


dbl 2C98 DCFD 3.14 ; DATA XREF: f 
dbl 2CAO0 DCFD 4.1 ; DATA XREF: f+10 


可 以 看 到 ， 这 里 我 们 使 用 了 新 的 寄存 器 ， 并 以 D 开 头 。 这 些 是 64 位 寄存 器 ， 有 32 
个 ， 他 们 既 可 以 用 作 浮 点 数 (double) 运 算 也 可 以 用 作 SIMD( 在 ARM 中 称 为 NEON) 。 


它们 同时 也 可 以 作为 32 个 32 位 的 S 寄 存 器 使 用 ， 它 们 被 用 于 单 精 度 操作 浮 点 数 
(float) 运算 。 


记 住 它们 很 容易 : D 系 列 寄 存 器 用 于 双 精 度数 字 ，S 寄 存 器 用 于 单 精 度数 字 ， 记 住 
Double 和 Single 的 首 字 母 就 可 以 了 。 


两 个 常量 (3.14 和 4.1) 都 是 以 |EEE 754 的 形式 存储 在 内 存 中 。 


VLDR 和 VMOV 指 令 ， 容 易 推 断 ， 类 似 LDR 和 和 MOV 指令， 但 是 它们 使 用 品系 列 寄存 
器 ， 需 要 注意 的 就 是 这 些 指令 不 就 之 后 也 会 展现 出 ， 就 像 D 系 列 寄 存 器 一 样 ， 不 仅 
可 以 进行 浮 点 数 运算 而 且 也 可 以 用 于 SIMD(NEON) 运 算 ， 参 数 传递 的 方式 仍旧 是 通 
过 民 系 列 寄存 器 传递 ， 但 是 每 个 具有 双 精 度 的 数值 有 有 64 位 ， 所 以 为 了 便于 传递 需要 
两 个 寄存 器 。 


VMOV D17,R9,R1 在 最 开始 ， 将 两 个 来 自 R9 和 R1 的 32 位 的 值 组 成 一 个 64 位 的 值 并 且 将 
它 保 存在 D17 中 。 

VMOV RO,R1,D16 是 一 个 逆 操 作 ，D16 中 的 值 放 回 RO, RA T ° 

VDIV, VMUL, VADD 都 是 用 于 浮 点 数 的 处 理 计 算 的 指令 ， 分 别 为 除法 指令 ， 乘 法 指令 ， 加 
法 指令 。 


thumb-2 的 代码 也 是 相同 的 。 


17.5.3 ARM: 优 化 keil 十 thumb 模式 


PUSH (R3-R7,LR) 
MOVS R7, R2 
MOVS R4, R3 
MOVS R5, RO 


LDR R2, -0x66666666 
LDR R3, =0x40106666 
MOVS RO, R7 

MOVS R1, R4 

BL . aeabi dmul 
MOVS R7, RO 

MOVS RA, R1 

LDR R2, =0x51EB851F 
LDR R3, =0x40091EB8 
MOVS RO, R5 

MOVS R1, R6 

BL . aeabi ddiv 
MOVS R2, R7 

MOVS R3, R4 


BL . aeabi dadd 
POP (R3-R7,PC) 
dword 364 DCD 0x66666666 ' DATA XREF: f+A 


DATA XREF: f+C 
DATA XREF: f+1A 
DATA XREF: f+1C 


dword 368 DCD 0x40106666 
dword 36C DCD 0X51EB851F 
dword_370 DCD 0x40091EB8 


Mo x 


keil 为 处 理 器 生成 的 代码 不 支持 FPU 和 NEON。 因 此 ， 双 精度 浮 点 数 通 过 通用 民 寄 存 
器 来 传递 双 精 度数 字 ， 与 FPU 指 令 不 同 的 是 ， 通 过 对 库 函 数 调用 (如 aeabi_dmul, 
aeabi ddiv aeabi dadd) 用 来 实现 乘法 ， 除 法 ， 浮 点 数 加 法 。 当 然 ， 这 上 比 FPU 
协 处 理 器 慢 ， 但 总 比 没有 强 。 


另外 ， 在 Xx86 的 世界 中 ， 当 协 处 理 器 少 而 贵 并 且 只 安装 昂贵 的 计算 机 上 时 ， 在 FPU 
模拟 库 非 常 受 欢 迎 。 


在 ARM 的 世界 中 ，FPU 处 理 器 模拟 称 为 soft float 或 者 armel， 用 协 处 理 器 的 FPU 指 
令 的 称 为 hard float 和 armhf 。 


举 个 例子 ， 树 莽 派 的 linux 内 核 用 两 种 变量 编译 。 如 果 是 soft float， 参 数 就 会 通过 民 
系列 寄存 器 编码 ，hard float 则 会 通过 DD 系列 寄存 器 。 


这 就 是 不 让 你 使 用 例子 中 来 自 armel 编 码 的 armhf 库 原因 ， 反 之 亦 然 。 那 也 是 linux 分 
区 必须 根据 调用 惯例 编译 的 原因 。 
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17.5.5 ARM64: Non-optimizing GCC (Linaro) 4.9 


17.5.6 MIPS 
17.6 通过 参数 通过 浮 点 数 


Zinclude <math.h> 
Zinclude «stdio.h» 
int main () 


{ 
printf ("32.01 ^ 1.54 = %1f", pow (32.01,1.54)); 
return 0; 
} 
17.6.1 x86 


让 我 们 来 看 看 在 (msvc2010) 中 得 到 的 东西 
清单 15.3 : MSVC 2010 


CONST SEGMENT 

__real@40400147ae147ae1 DQ 040400147ae147ae1r ; 32.01 
__real@3ff8a3d70a3d70a4 DQ O3ff8a3d70a3d70a4r ; 1.54 
CONST ENDS 


_main PROC 
push ebp 
mov ebp, esp 
sub esp, 8 ; allocate place for the first variable 
fld QWORD PTR __real@3ff8a3d70a3d70a4 
fstp QWORD PTR [esp] 
sub esp, 8 ; allocate place for the second variable 
fld QWORD PTR  realQ940400147ae147ae1 
fstp QWORD PTR [esp] 
call .. pow 
add esp, 8 ; "return back" place of one variable. 


; in local stack here 8 bytes still reserved for us. 
; result now in ST(0) 


fstp QWORD PTR [esp] ; move result from ST(0) to loca 
l stack for printf() 
push OFFSET $SG2651 


call _printf 
add esp, 12 
xor eax, eax 
pop ebp 

ret 0 


main ENDP 


FLD 和 FSTP 读 取 FPU 的 栈 中 的 变量 。pow () 从 FPU 栈 中 拿 出 两 个 值 然后 将 结果 返 
回 到 ST(0) 寄 存 器 中 。printf ( ) 函数 从 本 地 栈 中 取出 8 字 节 并 且 将 他 们 翻译 为 双 精 度 


Zn EL 
XEO 


17.6.2 ARM+Non-optimizing Xcode (LLVM) +thumb-27% X, 


. main 
var C = -0xC 
PUSH (R7,LR) 
MOV R7, SP 
SUB SP, SP, #4 
VLDR D16, =32.01 
VMOV RO, R1, D16 
VLDR D16, -1.54 
VMOV R2, R3, D16 
BLX _pow 
VMOV D16, RO, R1 
MOV RO, OxFC1 ; "32.01 ^ 1.54 = *f 
ADD RO, PC 
VMOV R1, R2, D16 
BLX _printf 
MOVS R1, © 
STR RO, [SP,40xC-*var. C] 
MOV RO, R1 
ADD SP, SP, #4 
POP {R7,PC} 
db1_2F90 DCFD 32.01 ; DATA XREF: _main+6 
dbl 2F98 DCFD 1.54 ; DATA XREF: _main+E 


就 像 我 以 前 写 的 一 样 ，64 位 的 浮 点 数 是 成 对 传递 给 民 系 列 寄存 器 的 。 这 样 的 代码 是 
TCR ES (当然 是 因为 优化 选项 关 掉 了 ) ， 因 为 ， 事 实 上 直接 从 RR 系列 寄存 器 传递 
值 ， 不 借助 D 系 列 寄 存 器 是 可 能 的 。 


因此 我 们 可 以 看 到 ，_pow 将 第 一 个 参数 放 入 R0 和 R1 中 ， 第 二 个 参数 放 入 R2 和 R3 
中 。 遂 数 结果 放 入 RO 和 R1 中 。 _pwn 的 结果 先 放 入 了 D16 中 ， 然 后 再 放 入 R1 和 R2 
中 ， 然 后 printf 函 数 将 取 走 这 个 值 。 


17.6.3 ARM+ 非 优化 模式 keil 十 ARM 模 式 


main 
STMFD SP!, {R4-R6,LR} 


LDR R2, =OxXA3D70A4 ; y 
LDR R3, zOx3FF8A3D7 

LDR RO, zOxAE147AE1 ; x 
LDR R1, =0x40400147 

BL pow 

MOV RA, RO 

MOV R2, R4 

MOV R3, R1 

ADR RO, a32 011 54Lf ; "32.01 ^ 1.54 = &1F 
BL _ 2printf 

MOV RO, #0 


LDMFD SP!, {R4-R6, PC} 


y DCD OxA3D70A4 ; DATA XREF: _main+4 
dword_520 DCD Ox3FF8A3D7 ; DATA XREF: _main+8 
; double x 

X DCD OXAE147AE1 ; DATA XREF: _main+C 
dword 528 DCD 0x40400147 ; DATA XREF: _main+10 


a32 011 54Lf DCB "32.01 ^ 1.54 = %1f",0xA,0 
; DATA XREF: _main+24 


DD 系列 寄存 器 在 这 里 不 使 用 ， 只 成 对 地 使 用 民 系 列 的 寄存 器 
17.6.4 ARM64 + Optimizing GCC (Linaro) 4.9 
17.6.5 MIPS 

15.3 对 比 实例 

试 会 这 个 


double d max (double a, double b) 


if (a>b) 
return a; 
return b; 
J; 
17.7.1 x86 


无 优化 的 MSVC 


尽管 这 个 函数 很 简单 ， 但 是 理解 它 的 工作 原理 并 不 容易 。 


MSVC 2010 生 成 
PUBLIC .d max 
. TEXT SEGMENT 
_a$ = 8 2 OA = 3 
_b$ = 16 ; size = 8 
.d max PROC 
push ebp 
mov ebp, esp 
fld QWORD PTR _b$[ebp] 


current stack state: ST(0) = b 
compare b (ST(0)) and a, and pop register 


sae 


-- 


fcomp | QWORD PTR _a$[ebp] 


stack is empty here 


-- 


fnstsw ax 
test ah, 5 
jp SHORT $LNi1Qd max 


we are here only if a>b 


-- 


fld QWORD PTR _a$[ebp] 

jmp SHORT $LN2@d_max 
$LN1@d_max: 

fld QWORD PTR _b$[ebp] 
$LN2@d_max: 

pop ebp 

ret 0 
_d_max ENDP 


此 ，FLD 将 _b 中 的 值 装 入 ST(0) 寄 存 器 中 。 


FCOMP 对 比 ST(0) 寄 存 器 和 _a 值 ， 设 置 FPU 状 态 字 寄 存 器 中 的 C3/C2/C0 位 ， 这 是 
一 个 反应 FPU 当 前 状态 的 16 位 寄存 器 。 


C3/C2/C0 位 被 设置 后 ， 不 幸 的 是 ，lntelP6 之 前 的 CPU 没有 任何 检查 这 些 标志 位 的 
条 件 转移 指令 。 可 能 是 历史 的 原因 (FPU 曾 经 是 单独 的 一 块 世 片 )。 从 Intel P6 开 
始 ， 现 在 的 CPU 拥 有 FCOMI/FCOMIP/FUCOMI/FUCOMIP 指 令 ， 这 些 指 令 功 能 相 
同 ， 但 会 改变 CPU 的 ZF/PF/CF 标 志 位 。 


当 标 志 位 被 设 好 后 ，FCOMP 指 令 从 栈 中 弹出 一 个 变量 。 这 就 是 和 FCOM 的 不 同 之 
处 ，FCOM 只 对 比值 ， 让 栈 保持 同样 的 状态 。 


FNSTSW 讲 FPU 状 态 字 寄 存 器 的 内 容 拷贝 到 AX 中 ，C3/C2/C0 放 置 在 14/10/8 位 中 ， 
它们 会 在 AX 寄 存 器 中 相应 的 位 置 上 ， 并 且 都 放 在 AX 的 高 位 部 分 一 AH © 


如 果 b>a 在 我 们 的 例子 中 ，C3/C2/C0 位 会 被 设置 为 :0，0，0 
如 果 a>b 标志 位 被 设 为 :0,0,1 
如 果 azb 标识 位 被 设 为 :1，0，0 


执行 了 test sh，5 之 后 ，C3 和 C1 的 标志 位 被 设 为 0， 但 是 第 0 位 和 第 2 位 (在 AH 寄 
存 器 中 ) C0 和 C2 位 会 保留 。 


下 面 我 们 谈 谈 奇 偶 位 标志 。Another notable epoch rudiment : 


一 个 常见 的 原因 是 测试 奇偶 位 标志 事实 上 与 奇偶 没有 任何 关系 。FPU 有 4 个 条 件 标 
& (C0 到 C3) ， 但 是 它们 不 能 被 直接 测试 ， 必 须 先 拷贝 到 标志 位 寄存 器 中 ， 在 这 
个 时 候 ，C0 放 在 进位 标志 中 ，C2 放 在 奇偶 位 标志 中 ，C3 放 在 0 标志 位 中 。 当 例子 中 
不 可 比较 的 浮 点 数 (NaN 或 者 其 他 不 支持 的 格式 ) 使 用 FUCOM 指 令 进行 比较 的 时 
如 果 一 个 数字 是 奇数 这 个 标志 就 会 被 设置 为 1。 如 果 是 偶数 就 会 被 设置 为 0. 


因此 ，PF 标 志 会 被 设置 为 1 如 果 C0O 和 C2 都 被 设置 为 0 或 者 都 被 设置 为 1。 然后 jp 跳 转 
就 会 实现 。 如 果 我 们 recall valuesof C3/C2/C0， 我 们 将 会 发 现 条 件 跳 转 jp 可 能 会 在 
两 种 情况 下 触发 : b>a 或 者 a==b (C3 位 这 里 不 再 考虑， 因为 在 执行 test sh,5 指 令 之 
后 已 经 被 清 零 了 ) 


之 后 就 简单 了 。 如 果 条 件 跳 转 被 触发 ，FLD 会 将 _b 的 值 放 入 ST(0) 寄 存 器 中 ， 如 果 
没有 被 触发 ， a 变量 的 值 会 被 加 载 但 是 还 没有 结 

关于 检查 C2-Flag 

First OllyDbg example: a=1.2 and b=3.4 

Second OllyDbg example: a=5.6 and b=-4 


msvc2010 优 化 模式 


_a$ = 8 pA soe 

_b$ = 16 ; Size = 8 

_d max PROC 
fld QWORD PTR _b$[esp-4] 
fld QWORD PTR _a$[esp-4] 


; current stack state: ST(0) = a, ST(1) = b 
fcom ST(1) ; compare a and ST(1) = (_b) 
fnstsw ax 
test ah, 65 ; 00000041H 
jne SHORT $LN5Qd max 
fstp ST(1) ; copy ST(0) to ST(1) and pop register, leave ( a 
) on top 
; current stack state: ST(0) = a 
ret 0 
$LN5Qd max: 
fstp ST(0) ; copy ST(0) to ST(0) and pop register, leave ( b 
) on top 
; current stack state: ST(0) - b 
ret 0 
.d max ENDP 


FCOM 区 别 于 FCOMP 在 某 种 程度 上 是 它 只 比较 值 然 后 并 不 改变 FPU 的 状态 。 和 之 
前 的 例子 不 同 的 是 ， 操 作 数 是 逆序 的 。 这 也 是 C3/C2/C0 中 的 比较 结果 是 不 同 的 原 
o 


如 果 a>b 在 我 们 的 例子 中 ，C3/C3/C0 会 被 设 为 0， 0，0 
如 果 boa 标志 位 被 设 为 :0，0，1 
如 果 azb 标志 位 被 设 为 :1，0，0 


可 以 这 么 说 ，test ah,65 指 令 只 保留 两 位 一 C3 和 C0. 如 果 a>b 那 么 两 者 都 被 设 为 0 : 
在 那 种 情况 下 ，JNE 跳 转 不 会 被 触发 。FSTP ST(1) 接 下 来 一 这 个 指令 会 复制 
ST(0) 中 的 值 放 入 操作 数 中 ， 然 后 从 FPU 栈 中 跑 出 一 个 值 。 换 和 名 话说， 这 个 这 个 指 
令 将 ST(0) 中 的 值 复 制 到 ST(1) 中 。 然 后 ， a 的 两 个 值 现在 在 栈 定 。 之 后 ， 一 个 值 被 
抛 出 。 之 后 ，ST(0) 会 包含 a 然后 函数 执行 完毕 。 


条 件 跳 转 JNE 在 两 种 情况 下 触发 : b>a 或 者 a==b。ST(0) 中 的 值 拷贝 到 ST (0) F > 
就 像 nop 指 令 一 样 ,然后 一 个 值 从 栈 中 抛 出 ， 然 后 栈 顶 (ST(0) ) 会 包含 ST(1) 之 前 的 包 
SHAE (就 是 b) 。 遂 数 执行 完毕 。 这 条 指令 在 这 里 使 用 的 原因 可 能 是 FPU 没 有 
从 栈 中 抛 出 值 的 指令 并 且 没 有 地 方 存储 。 但 是 ， 还 没有 结束 。 


First OllyDbg example: a=1.2 and b=3.4 
Second OllyDbg example: a=5.6 and b=-4 


GCC 4.4.1 


d_max proc near 
b dword ptr -10h 
qword ptr -8 

dword ptr 8 

dword ptr OCh 
dword ptr 10h 
dword ptr 14h 


a 

a first half 
a second half 
b first half 
b second half 


push ebp 
mov ebp, esp 
sub esp, 10h 


; put a and b to local stack: 


mov eax, [ebp+a first half] 
mov dword ptr [ebpta], eax 
mov eax, [ebp-*a second half] 
mov dword ptr [ebptat+4], eax 
mov eax, [ebp-«b first half] 
mov dword ptr [ebp+b], eax 
mov eax, [ebp+b second half] 
mov dword ptr [ebp+b+4], eax 


; load a and b to FPU stack: 
fld [ebp-*a] 
fld [ebp+b ] 
; current stack state: ST(0) - b; ST(1) -a 
fxch st(1) ; this instruction swapping ST(1) and ST(0) 
; current stack state: ST(0) - a; ST(1) - b 
fucompp ; compare a and b and pop two values from stack, 


i.e., a and b 
fnstsw ax ; store FPU status to AX 


sahf ; load SF, ZF, AF, PF, and CF flags state from A 
H 
setnbe al ; store 1 to AL if CF-0 and ZF=0 
test al, al ; AL--0 ? 
JZ short loc 8048453 ; yes 
fld [ebp-*a] 
jmp short locret 8048456 
loc 8048453: 
fld [ebp+b ] 
locret 8048456: 
leave 
retn 


d max endp 


FUCOMMP 类 似 FCOM 指 令 ， 但 是 两 个 值 都 从 栈 中 取 ， 并 且 处 理 NaN( 非 数 ) 有 一 些 
不 同 之 处 。 

更 多 关于 ” 非 数 "的 : 

FPU 能 够 处 理 特殊 的 值 比 如 非 数字 或 者 NaNs。 它 们 是 无 穷 大 的 ， 除 零 的 结果 等 
等 。NaN 可 以 是 “quiet* 并 且 “signaling” 的 。 但 是 如 果 进 行 任何 有 关 “signaling” 的 操作 
将 会 产生 异常 。 


FCOM 会 产生 异常 如 果 操 作 数 中 有 NaN。FUCOM 只 在 操作 数 有 signaling NaN 
(SNaN) 的 情况 下 产生 异常 。 


接 下 来 的 指令 是 SANF 一 这 条 指令 很 少 用 ， 它 不 使 用 FPU 。AH 的 8 位 以 这 样 的 顺序 
放 入 CPU 标志 位 的 低 8 位 中 : SF:ZF:-:AF:-:PF:-:CF<-AH ° 


FNSTSVW 将 C3/C2/C0 位 放 入 AH 寄存 器 的 第 6，2，0 位 中 。 
4 6] i£ UG * fnstsw ax/sahf 指 令 对 是 将 C3/C2/C0 移 入 CPU 标志 位 ZF,PFCF 中 。 
现在 我 们 来 回顾 一 下 ，C3/C2/C0 位 会 被 设置 成 什么 。 

在 我 们 的 例子 中 ， 如 果 a 比 b 大 ， 那 么 C3/C2/C0 位 会 被 设 为 0，;0，0 


如 果 a 比 b 小 ， 这 些 位 会 被 设 为 0， 0 ，1 
如 果 a 二 b， 这 些 位 会 被 设 为 1，0，0 


换 句 话说 ， 在 FUCOMPP/FNSTSW/SAHF 指 令 后 ， 我 们 的 CPU 标 志 位 的 状态 如 下 


如 果 a>b, CPU 的 标志 位 会 被 设 为 :ZF=0, PF=0, CF=0 
如 果 a<b, CPU 的 标志 位 会 被 设 为 :ZF=0, PF=0, CF=1 
如 果 a=b, CPU 的 标志 位 会 被 设 为 :ZF=1,PF=0, CF=0 


SETNBE 指 令 怎 样 给 AL 存 储 0 或 1 : 取决 于 CPU 标 志 位 。 几 乎 是 JNBE 的 计数 器 ， 利 
用 设置 cc 码 产 生 的 异常 ， 来 给 AL 写 入 0 或 1， 但 是 Jccbut Jcc do actual jump or 
not.SETNBE 看 储 1 只 在 CF=0 并 且 ZF=0 的 情况 下 。 如 果 为 假 ， 将 会 存储 0。 


cf 和 ZF 都 为 0 只 存在 于 一 种 情况 : ab 

然后 one 将 会 被 存 入 AL 中 ， 接 下 来 JZ 不 会 被 触发 ， 函 数 将 返回 _a。 在 其 他 的 情况 
下 ， 返 回 的 是 _b 。 

带 优化 的 GCC 4.4.1 


GCC 4.4.1-03 优 化 选项 turned 开 关 


public d max 


d max proc near 
arg 0 - qword ptr 8 
arg 8 - qword ptr 10h 
push ebp 
mov ebp, esp 
fld [ebp+arg 0] ; a 
fld [ebp+arg 8] ; b 


; stack state now: ST(0) = b, ST(1) = a 
fxch st(1) 


ll 
o 


; stack state now: ST(0) = a, ST(1) m 
fucom st(1) ; compare a and b 
fnstsw ax 
sahf 
ja short loc 8048448 
; Store ST(0) to ST(0) (idle operation), pop value at top of sta 
Ck, leave b at top 
fstp st 
jmp short loc_804844A 


loc_8048448: 

; store a to ST(0), pop value at top of stack, leave _a at top 
fstp st(1) 

loc 804844A: 
pop ebp 
retn 

d max endp 


几乎 相同 除了 一 种 情况 : JA 替 代 了 SAHF。 事 实 上 ， 条 件 跳 转 指令 (JA, JAE, JBE, 
JBE, JE/JZ, JNA, JNAE, JNB, JNBE, JNE/JNZ) 检查 通过 检查 CF 和 ZF 标 志 来 知晓 
两 个 无 符号 数字 的 比较 结果 。C3/C2/C0 位 在 比较 之 后 被 放 入 这 些 标志 位 中 然后 条 件 
跳 转 就 会 起 效 。JA 会 生效 如 果 CF 和 ZF 都 为 0。 


因此 ， 这 里 列 出 的 条 件 跳 转 指令 可 以 在 FNSTSW/SAHF 指 令 对 之 后 使 用 。 

看 上 去 ，FPU C3/C2/C0 状 态 位 故意 放置 在 那里 ， 传 递 给 CPU 而 不 需要 额外 的 交 
换 。 

ARM 


ARM+ 优 化 Xcode(LLVM)+ARM 模 式 


VMOV D16, R2, R3 ; b 


VMOV D17, RO, R1; a 
VCMPE.F64 D17, D16 

VMRS APSR nzcv, FPSCR 
VMOVGT.F64 D16, D17 ; copy b to D16 
VMOV RO, R1, D16 

BX LR 


一 个 简单 例子 。 输入 值 放 在 D17 到 D16 寄 存 器 pv o a o 
就 像 x86 协 处 理 器 一 样 ，ARM 协 处 理 器 拥有 自己 的 标志 位 寄存 器 (FPSCR) > AA 
存储 协 处 理 器 的 特殊 标志 需要 存储 。 

就 像 x86 中 一 样 ， 在 ARM 中 没有 条 件 跳 转 指 令 ， 在 协 处 理 器 状态 寄存 器 中 检查 位 ， 
因此 这 里 有 VMRS 指 令 ， 从 协 处 理 器 状态 字 复 制 4 位 (N,Z,C,V) 放 入 通用 状态 位 
(APSR 寄 存 器 ) 


VMOVGT 类 似 MOVGT 指 令 ， 如 果 比 较 时 一 个 操作 数 比 其 它 的 大 ， 指 令 将 会 被 执 
行 。 


如 果 被 执行 了 ，b 值 将 会 写 入 D16， 和 暂时 被 存储 在 D17 中 。 
果 没 有 被 执行 ，a 的 值 将 会 保留 在 D16 寄 存 器 中 。 
倒数 第 二 个 指令 VMOV 将 会 通过 RO 和 R1 寄 存 器 对 准备 D16 寄 存 去 中 的 值 来 返回 


ARM+ 优 化 Xcode (LLVM) +thumb-2 模式 


VMOV D16，R2，R3 ; b 
VMOV D17, RO, R1; a 
VCMPE.F64 D17, D16 

VMRS APSR nzcv, FPSCR 
IT GT 

VMOVGT.F64 D16, D17 

VMOV RO, R1, D16 

BX LR 


eR Aaa 有 一 些小 ， R00 令 在 ARM 
模式 下 根据 条 件 判 定 ， 当 条 件 为 卜 则 执行 。 


但 是 在 thumb 代 码 中 没有 这 样 的 事 。 在 16 位 的 指令 中 没有 空闲 的 4 位 来 编码 条 件 。 
但 是 ，thumb-2 为 老 的 thumb 指 令 进 行 扩 展 使 得 特殊 判断 成 为 可 能 。 


这 里 是 |DA- 生 成 的 表单 ， 我 们 可 以 看 到 VMOVGT 指 令 ， 和 在 前 一 个 例子 中 是 相同 
的 。 


但 事实 上 ， 常 见 的 VMOV 就 这 样 编码 ， 但 是 IDA 加 上 了 一 GT 后 级 ， 因 为 以 前 会 放 
E“IT GT" 指 令 。 


IT 指令 定义 所 谓 的 并 then 块 。 指 令 后 面 最 多 放置 四 条 指令 是 可 能 的 ， 判 断后 组 会 被 
加 上 。 在 我 们 的 例子 中 ，“|T GT" 意 味 着 下 一 条 指令 会 被 执行 ， 如 果 GT (Greater 
Than) &4FJ Š o 


下 面 是 一 段 更 加 复杂 的 代码 ， 来 源 于 "愤怒 的 小 鸟 "(ios 版 ) 
ITE NE 


VMOVNE R2, R3, D16 
VMOVEQ R2，R3，D17 


ITE 意 味 着 if-the-else 并 且 它 为 接 下 来 的 两 条 指令 加 上 后 级 。 第 一 条 指令 将 会 执行 如 
SITE (NE, 不 相等 ) 这 时 为 监 ， 为 假 则 执行 第 二 条 指令 。 (与 NE 对 立 的 就 是 
EQ (equal) ) 


这 段 代码 也 来 自 " 愤 怒 的 小 乌 " 


ITTTT EQ 
MOVEQ RO, R4 

ADDEQ SP, SP, 40x20 
POPEQ.W {R8, R10} 
POPEQ {R4-R7, PC} 


AMT FES EMILE T BRAIET ROARS KARIM RAGA BR o HWE 
IDA 在 每 条 指令 后 面 如 上 -EQ 后 缓 的 原因 。 


如 果 出 现 上 面 例子 中 ITEEE EQ (if-then-else-else-else) ,那么 这 


设置 。 


Ds 
ay 
ES 
AS 
ae 
n» 
x* 
[rs 
3 


-EQ 
-NE 
-NE 
-NE 


另 一 段 来 自 " 愤 起 的 小 乌 ? 的 代码 。 


CMP.W RO, #OXFFFFFFFF 
ITTE LE 

SUBLE.W R10, RO, #1 
NEGLE RO, RO 

MOVGT R10, RO 


Je 


ITTE (if-then-then-else) 意味 着 第 一 条 第 二 条 指令 将 会 被 执行 ， 如 果 LE (Less or 
Equal) 条 件 为 夏 ， 反 之 第 三 条 指令 将 会 执行 。 


编译 器 通常 不 生成 所 有 的 组 合 。 举 个 例子 ， 在 “愤怒 的 小 乌 " 中 提 到 的 〈ios 经 典 版 ) 
只 有 这 些 IT 指 令 会 被 使 用 : ITITE,ITTITTE,ITTTITTTT 我 们 怎样 去 学 习 它 呢 ?在 
IDA 中 ， 产 生 这 些 列举 的 文件 是 可 能 的 ， 于 是 我 这 么 做 了 ， 并 且 设 置 选项 以 4 字 节 的 
格式 现实 操作 码 。 因 为 TT 操作 码 的 高 16 位 是 0xBF， 使 用 grep 指 令 


cat AngryBirdsClassic.lst | grep " BF" | grep "IT" > results.lst 
另外 ， 对 于 thumb-2 模 式 ARM 汇 编 语 言 的 程序 ， 通 过 附加 的 条 件 后 级， 儿 要 的 时 候 
汇编 会 自动 加 上 |T 指 令 和 相应 的 标志 。 


ARM+ 非 优化 模式 Xcode(LLVM)+ARM 模 式 


b =-0x20 
a =-0x18 
val_to_return = -0x10 
saved_R7 = -4 
STR R7, [SP,£Zsaved R7]! 
MOV R7, SP 
SUB SP, SP, #0x1C 
BIC SP, SP, 47 
VMOV D16, R2, R3 
VMOV D17, RO, R1 
VSTR D17, [SP,#0x20+a] 
VSTR D16, [SP,#0x20+b] 
VLDR D16, [SP,#0x20+a] 
VLDR D17, [SP,#0x20+b] 
VCMPE.F64 D16, D17 
VMRS APSR nzcv, FPSCR 
BLE loc 2bE08 
VLDR D16, [SP,#0x20+a] 
VSTR D16, [SP,4Z0x20-*val to return] 
B loc 2bE10 
loc 2bE08 
VLDR D16, [SP,#0x20+b] 
VSTR D16, [SP,4Z0x20-4val to return] 
loc 2bE10 
VLDR D16, [SP,4Z0x20-4val to return] 
VMOV RO, R1, D16 
MOV SP, R7? 
LDR R7, [SP+0x20+b], #4 
BX LR 


基本 和 我 们 看 到 的 一 样 ， 但 是 太 多 完 陈 代码 ， 因 为 a 和 b 的 变量 存储 在 本 地 栈 中 ， 还 
有 返回 值 


ARM+ 优 化 模式 keil 十 thumb 模 式 


PUSH (R3-R7,LR) 

MOVS RA, R2 

MOVS R5, R3 

MOVS R6, RO 

MOVS R7, R1 

BL . aeabi cdrcmple 

BCS loc 1cC0 

MOVS RO, R6 

MOVS R1, R7 

POP {R3-R7,PC} 
loc 1CO 

MOVS RO, R4 

MOVS R1, R5 

POP {R3-R7,PC} 


keil 不 为 浮 点 数 的 比较 生成 特殊 的 指令 ， 因 为 他 不 能 依靠 核心 CPU 的 支持 ， 它 也 不 
能 直接 按 位 比较 。 这 里 有 一 个 外 部 函数 用 于 比较 : _ aeabi_cdrcmple. N.B. 比较 的 
结果 用 来 设置 标志 ， 因 此 接 下 来 的 BCS (标志 位 设置 - 大 于 或 等 于 ) 指令 可 能 有 效 
并 且 无 需 额外 的 代码 。 


17.7.3 ARM64 

Optimizing GCC (Linaro) 4.9 
Non-optimizing GCC (Linaro) 4.9 
Exercise 

Optimizing GCC (Linaro) 4.9—float 
17.7.4 MIPS 

17.8 栈 ,计算 器 和 逆 波 兰 表 示 法 
17.9 x64 


17.10 练习 


浮 点 数 单元 


199 


第 十 入 章 


数组 


数组 是 在 内 存 中 连续 排列 的 一 组 变量 ， 这 些 变量 具有 相同 类 型 1 。 
18.1 小 例子 


#include <stdio.h> 
int main() 


int a[20]; 
int i; 
for (i=0; i«20; i++) 
a[i]-i*2; 
for (i=0; i<20; i++) 
printf ("a[%d]=%d", i, a[i]); 
return 0; 


Ye 


18.1.1 x86 


MSVC 
编译 后 : 
Listing 18.1: MSVC 


_ TEXT SEGMENT 
_i$ = -84 ; size = 4 
_a$ = -80 ; Size = 80 
_main PROC 
push ebp 
mov ebp, esp 
sub esp, 84 ; 00000054H 
mov DWORD PTR _i$[ebp], 0 
jmp SHORT $LN6@main 
$LN5@main: 
mov eax, DWORD PTR _i$[ebp] 
add eax, 1 
mov DWORD PTR _i$[ebp], eax 
$LN6@main: 
cmp DWORD PTR _i$[ebp], 20 ; 00000014H 
jge SHORT $LN4@main 
mov ecx, DWORD PTR _i$[ebp] 
shl ecx, 1 
mov edx, DWORD PTR _i$[ebp] 
mov DWORD PTR _a$[ebpt+edx*4], ecx 
jmp SHORT $LN5@main 
$LN4@main: 
mov DWORD PTR _i$[ebp], © 
jmp SHORT $LN3@main 
$LN2@main: 
mov eax, DWORD PTR _i$[ebp] 
add eax, 1 
mov DWORD PTR _i$[ebp], eax 
$LN3@main: 
cmp DWORD PTR _i$[ebp], 20 ; 00000014H 
jge SHORT $LN1@main 
mov ecx, DWORD PTR _i$[ebp] 
mov edx, DWORD PTR _a$[ebpt+ecx*4] 
push edx 
mov eax, DWORD PTR _i$[ebp] 
push eax 
push OFFSET $SG2463 
call _printf 
add esp, 12 ; 0000000cH 
jmp SHORT $LN2Qmain 
$LN1Qmain: 
xor eax, eax 
mov esp, ebp 
pop ebp 
ret 0 
_main ENDP 


这 段 代码 主要 有 两 个 循环 : 第 一 个 循环 填充 数组 ， 第 二 个 循环 打印 数组 元 素 。shl 
ecx,1 指 令 使 ecx 的 值 乘 以 2， 更 多 关于 左 移 请 参考 17.3.1。 在 堆栈 上 为 数组 分 配 了 
80 个 字 节 的 空间 ， 包 含 20 个 元 素 ， 每 个 元 素 4 字 节 大 小 。 


Let's try this example in OllyDbg 缺漏 = 


GCC 
GCC 4.4.1 编 译 后 为 : 
Listing 18.2: GCC 4.4.1 


public main 


main proc near ; DATA XREF: start- 
17 
var 70 - dword ptr -70h 
var. 6C - dword ptr -6Ch 
var 68 - dword ptr -68h 
i_2 = dword ptr -54h 
i = dword ptr -4 
push ebp 
mov ebp, esp 
and esp, OFFFFFFFOh 
sub esp, 70h 
mov [esp+70h+i], 0 ; i-0 
jmp short loc 804840A 
loc 80483F7: 
mov eax, [esp-*70h-*i] 
mov edx, [esp-*70h-*i] 
add edx, edx ; edx-i*2 
mov [esp*eax*4-70h«i 2], edx 
add [esp*70h*i], 1 ; i++ 
loc 804840A: 
cmp [esp+70h+i], 13h 
jle short loc_80483F7 
mov [esp+70h+i], © 
jmp short loc_8048441 
loc 804841B: 
mov eax, [espt+70h+i] 
mov edx, [espteax*4+70ht+i_2] 
mov eax, offset aADD ; "a[%d]=%d 
mov [esp+70h+var_68], edx 
mov edx, [espt+70h+i] 
mov [esp+70h+var_6C], edx 
mov [esp+70h+var_70], eax 
call _printf 
add [esp+70h+i], 1 
loc 8048441: 
cmp [esp+70h+i], 13h 
jle short loc_804841B 
mov eax, 0 
leave 
retn 
main endp 


顺便 提 一 下 ， 一 个 int 类 型 (指向 int 的 指针 ) 的 变量 一 你 可 以 使 该 变量 指向 数组 并 将 
该 数组 传递 给 另 一 个 函数 ， 更 准确 的 说 ， 传 递 的 指针 指向 数组 的 第 一 个 元 素 (GR 
组 其 它 元 素 的 地 址 需要 显示 计算 ) 。 比 如 afidx]，idx 加 上 指向 该 数组 的 指针 并 返回 
该 元 素 。 一 个 有 趣 的 例子 : 类 似 ”string” 字 符 数组 的 类 型 是 const char， 索 引 可 以 应 
用 与 该 指针 。 上 比如 可 能 写作 ”string” 四 一 正确 的 C/C++ 表达 式 。 





18.1.2 ARM 


ARM + Non-optimizing Keil + ARM mode 


EXPORT 
main 

STMFD 

SUB 
int variables 
; first loop 


t) R2=*(SP+R4<<4) (same as *(SP+R4*4) ) 


MOV 

B 
loc_494 

MOV 

STR 
same as SP+R4*4) 

ADD 
loc_4A0 

CMP 

BLT 
in 
; second loop 

MOV 

B 
loc 4B0O 

LDR 

MOV 
) R1-i 

ADR 

BL 

ADD 
loc 4C4 

CMP 

BLT 
in 

MOV 

ADD 


main 


SP!, {R4,LR} 
SP, SP, 40x50 


RA, #0 
loc 4A0 


RO, R4,LSL#1 
RO, [SP,R4,LSL#2] 


RA, R4, #1 
R4, #20 

loc 494 

RA, #0 

loc 4C4 

R2, [SP,R4,LSL#2] 
R1, R4 


RO, aADD 


_ 2printf 


RA, R4, #1 


R4, 420 
loc 4BO 


RO, #0 
SP, SP, 40x50 


cated for 20 int variables 


LDMFD 


SP!, {R4,PC} 


-- 


allocate place for 20 


RO=R4*2 
store RO to SP+R4<<2 ( 


i=i+1 


i<20? 
yes, run loop body aga 


(second printf argumen 
(first printf argument 


"a[%d]=%d 


i=i+1 


i<20? 
yes, run loop body aga 


value to return 
deallocate place, allo 


int 类 型 长 度 为 32bits 即 4 字 节 ，20 个 int 变 量 需要 80 (0x50) 字 节 ， 因 此 "sub 


sp,sp,#Ox50" 指 令 为 在 栈 上 分 个 配 存 储 空 


H o 两 个 循环 选 代 器 被 存储 在 R4 寄 存 器 器 


Too 值 i2 被 写 入 数组 ， 通 过 将 j 值 左 移 1 位 实现 乘 以 2 的 效果 ， 整 个 过 程 通过 ”MOV 
RO,R4,LSLH#148 > X FM © "STR RO, [SPR4,LSL#2]” 把 RO 内 容 写 入 数组 。 pos 
为 : SP 指向 数组 开始 ，R4 是 /，/ 左 移 2 位 相当 于 乘 以 4， 即 (SP+R44)=RO。 第 二 
loopt “LDR R2, /SPR4LSLNH21 从 数组 读 取 数 值 到 寄存 器 ，R2=(SP+R4*4)。 


ARM + Keil + thumb 模式 优化 后 


main 
PUSH 


; allocate place for 20 int variables + 


SUB 
; first loop 
MOVS 
MOV 
element 
loc_1CE 
ESES 
LSLS 
ADDS 
CMP 
STR 
same R5+i*4) 
BLT 
dy again 


; second loop 


MOVS 
loc 1DC 

LSLS 

LDR 


me as R5+i*4) 


MOVS 
ADR 


BL 
ADDS 
CMP 
BLT 
dy again 
MOVS 


(R4, R5, LR} 
SP, SP, 40x54 


RO, #0 
R5, SP 


R1, RO, #1 
R2, RO, 42 
RO, RO, #1 
RO, 420 

R1, [R5,R2] 


loc 1CE 


R4, #0 


RO, R4, 42 
R2, [R5,R0] 


R1, R4 
RO, aADD 


_ 2printf 
RA, R4, #1 
R4, #20 
loc 1DC 


RO, #0 


one more variable 


o Mo o A o 


, 


i 
pointer to first array 


R1=i<<1 (same as i*2) 
R2=i<<2 (same as i*4) 
i=i+1 
i<20? 
store R1 to *(R5+R2) ( 


yes, i«20, run loop bo 


i-0 
RO-i««2 (same as i*4) 
load from *(R5+RO) (sa 


"a[%d]=%d 


i=i+1 
1<20? 
yes, 1<20, run loop bo 


value to return 


; deallocate place, allocated for 20 int variables + one more va 


riable 
ADD 
POP 


Thumb 代 码 也 是 非常 类 似 的 。Thumb 模 式 计算 数组 偏 移 的 移 位 操作 使 用 特定 的 指令 


SP, SP, #0x54 
(RA, R5, PC) 


LSLS » 编译 器 在 堆栈 中 申请 的 数组 空间 更 大 ， 但 是 最 后 4 个 字 节 的 空间 未 使 用 。 


Non-optimizing GCC 4.9.1 (ARM64) 


18.1.3 MIPS 


18.2 缓冲 区 溢出 


18.2.1 读 取 外 部 数组 的 边界 


Array[index] 中 index 指 代数 组 索引 ， 和 仔细 观察 下 面 的 代码 ， 你 可 能 注意 到 代码 没有 
index € «T 20 » t index X T 20 ? 这 是 C/C++ 经 常 被 批评 的 特征 。 以 下 代码 可 
以 成 功 编译 可 以 工作 : 


#include <stdio.h> 
int main() 


int a[20]; 

TE aie 

for (i=0; i<20; i++) 
a[i]-i*2; 

printf ("a[100]=%d", a[100]); 

return 0; 


H 


编译 后 (MSVC 2010) : 


. TEXT SEGMENT 


.i$ = -84 ; size = 4 
_a$ = -80 ; Size - 80 
_main PROC 
push ebp 
mov ebp, esp 
sub esp, 84 ; 00000054H 
mov DWORD PTR _i$[ebp], © 
jmp SHORT $LN3@main 
$LN2@main: 
mov eax, DWORD PTR _i$[ebp] 
add eax, 1 
mov DWORD PTR _i$[ebp], eax 
$LN3@main: 
cmp DWORD PTR _i$[ebp], 20 ; 00000014H 
jge SHORT $LN1@main 
mov ecx, DWORD PTR _i$[ebp] 
shl ecx, 1 
mov edx, DWORD PTR  i$[ebp] 
mov DWORD PTR _a$[ebpt+edx*4], ecx 
jmp SHORT $LN2@main 
$LN1@main: 
mov eax, DWORD PTR _a$[ebp+400 ] 
push eax 
push OFFSET $SG2460 
call _printf 
add esp, 8 
xor eax, eax 
mov esp, ebp 
pop ebp 
ret 0 
_main ENDP 


运行 ， 我 们 得 到 : al[100]=760826203 


打印 的 数字 仅仅 是 距离 数组 第 一 个 元 素 400 个 字 节 处 的 堆栈 上 的 数值 。 编 译 器 可 能 
会 自动 添加 一 些 判 断 数 组 边界 的 检测 代码 (更 高 级 语言 3) ， 但 是 这 可 能 影响 运行 
速度 。 我 们 可 以 从 栈 上 非法 读 取 数值 ， 是否 可 以 写 入 数值 呢 ? 下面 我 们 将 写 入 数 
值 : 


#include <stdio.h> 
int main() 


{ 
int a[20]; 
int i; 
for (i=0; i«30; i++) 
a[i]-i; 
return 0; 
3 
我 们 得 到 : 
_ TEXT SEGMENT 
_i$ = -84 
.a$ = -80 
_main PROC 
push ebp 
mov ebp, esp 
sub esp, 84 ; 00000054H 
mov DWORD PTR _i$[ebp], © 
jmp SHORT $LN3@main 
$LN2@main: 
mov eax, DWORD PTR _i$[ebp] 
add eax, 1 
mov DWORD PTR _i$[ebp], eax 
$LN3@main: 
cmp DWORD PTR _i$[ebp], 30 ; 
jge SHORT $LNi1Qmain 
mov ecx, DWORD PTR _i$[ebp] 
mov edx, DWORD PTR _i$[ebp] ; 
sly redundant 
mov DWORD PTR _a$[ebpt+ecx*4], 


second operand here instead 


jmp SHORT $LN2@main 
$LN1@main: 

xor eax, eax 

mov esp, ebp 

pop ebp 

ret 0 
_main ENDP 


; size = 4 
; Size = 80 
0000001eH 


that instruction is obviou 


edx ; ECX could be used as 


编译 后 运行 ， 程 序 崩 溃 。 我 们 找 出 导致 崩溃 的 地 方 。 没 有 使 用 调试 器 ， 而 是 使 用 我 


自己 写 的 小 工具 tracer 足 以 完成 任务 。 


我 们 用 它 看 被 调试 进程 衣 溃 的 地 方 : 


generic tracer 0.4 (WIN32), http://conus.info/gt 


New process: C:PRJ...1.exe, PID-7988 

EXCEPTION ACCESS VIOLATION: 0x15 («symbol (0x15) is in unknown m 
odule>), ExceptionInformation 

[0]-8 

EAX-0x00000000 EBX-OX7EFDEO00 ECX-0x0000001D EDX-0x0000001D 
ESI-0x00000000 EDI-0x00000000 EBP-0x00000014 ESP-0x0018FF48 
EIP-0x00000015 

FLAGS=PF ZF IF RF 

PID-7988|Process exit, return code -1073740791 


ALTAE SHS HERA EE RAE ROREOX15 © RENEE OSL Ey xd 
Win32 代 码 来 说 是 | 这 种 情况 并 不 是 我 们 期 望 的 ， 我 们 还 可 以 看 到 EBP 值 为 
0x14,ECX 和 EDX 都 为 0x1D。 让 我 们 来 研究 堆栈 布局 。 代码 进入 main () 后 ， 
EBP 寄存 器 的 值 被 保存 在 栈 上 。 为 数组 和 变量 j 一 共 分 配 84 字 节 的 栈 空间 ， 即 
(20+1)*sizeof(int)。 此 时 ESP 指 向 i 变量 ， 之 后 执行 push something，something 将 
RRA ic 此 时 main() 函 数 内 栈 布局 为 : 


ESP 

ESP+4 

ESP+84 

ESP+88 

4 bytes for i 

80 bytes for a[20] array 
saved EBP value 
returning address 


指令 a[19]=something 写 入 最 后 的 int 到 数组 边界 (这 里 是 数组 边界 1 ) 。 指令 
a[20]=something，something 将 履 盖 栈 上 保存 的 EBP 值 。 请 注意 前 溃 时 寄存 器 的 状 
态 。 在 此 例 中 ， 数 字 20 被 写 入 第 20 个 元 素 ， 即 原来 存放 EBP 值得 地 方 被 写 入 了 

20 (20 的 16 进 制 表示 是 0x14) 。 然 后 RET 指 令 被 执行 ， 相 当 于 执行 POP EIP 指 
令 。RET 指 令 从 堆栈 中 取出 返回 地 址 (该 地 址 为 CRT 内 部 调用 main() 的 地 址 ) ， 返 
回 地 址 处 被 存储 了 21 (0x15) 。CPU 执 行 地 址 0x15 的 代码 ， 弄 常 被 抛 出 。 
Welcome ! 这 被 称 为 缓冲 区 溢出 4。 使 用 字符 数组 代替 int 数 组 ， 创 建 一 个 较 长 的 字 
符 串 ， 把 字符 串 传 递 给 程序 ， 函 数 没 有 检测 字符 串 长 度 ， 把 字符 复制 到 较 短 的 缓冲 
区 ， 你 能 够 找到 找到 程序 必须 跳 转 的 地 址 。 事 实 上 ， 找 出 它们 并 不 是 很 简单 。 KN 
来 看 GCC 4.4.1 编 译 后 的 同类 代码 : 


public main 


main proc near 
a - dword ptr -54h 
工 = dword ptr -4 
push ebp 
mov ebp, esp 
sub esp, 60h 
mov [ebp*i], © 
jmp short loc_80483D1 
loc_80483C3: 
mov eax, [ebp+i] 
mov edx, [ebpti] 
mov [ebpt+eax*4+a], edx 
add [ebp*i], 1 
loc_80483D1: 
cmp [ebp+i], 1Dh 
jle short loc 80483C3 
mov eax, 0 
leave 
retn 
main endp 


在 linux 下 运行 将 产生 : 段 错误 。 使 用 GDB 调 试 : 


(gdb) r 
Starting program: /home/dennis/RE/1 


Program received signal SIGSEGV, Segmentation fault. 
0x00000016 in ?? () 
(gdb) info registers 


eax 0x0 0 

ecx Oxd2f96388 -755407992 
edx Oxid 29 

ebx Ox26ef F4 2551796 
esp Oxbffff4b0 Oxbffff4b0 
ebp 0x15 0x15 

esi 0x0 0 

edi 0x0 0 

eip 0x16 0x16 
eflags 0x10202 [ IF RF ] 
CS 0x73 115 

ss Ox7b 123 

ds Ox7b 123 

es Ox7b 123 

fs 0x0 0 

gs 0x33 51 


(gdb) 


寄存 器 的 值 与 Win32 例 子 略 微 不 同 ， 因 为 堆栈 布局 也 不 太一 样 。 
18.2.2 Writing beyond array bounds 
MSVC 


GCC 


18.3 防止 缓冲 区 溢出 的 方法 
下 面 一 些 方法 防止 缓冲 区 溢出 。MSVC 使 用 以 下 编译 选项 : 


/RTCs Stack Frame runtime checking 
/GZ Enable stack checks (/RTCs) 


一 种 方法 是 在 函数 局 部 变量 和 序言 之 间 写 入 随机 值 。 在 函数 退出 之 前 检查 该 值 。 如 
果 该 值 不 一 致 则 挂 起 而 不 执行 RET。 进 程 将 被 挂 起 。 该 随机 值 有 时 被 称 为 "探测 
值 ”。 如 果 使 用 MSVC 编 译 简单 的 例子 (18.1) ， 使 用 RTC1 和 RTCs 选 项 ， 将 能 

到 遂 数 调用 @ RTC_CheckStackVars@8 蕊 数 来 检测 “探测 值 “。 


我 们 来 看 GCC 如 何 处 理 这 些 。 我 们 使 用 alloca()(4.2.4) 例 子 : 


#include <malloc.h> 
#include <stdio.h> 
void f() 

{ 


char *buf=(char*)alloca (600); 
_Snprintf (buf, 600, "hi! %d, %d, %d", 1, 2, 3); 


puts (buf); 


我 们 不 使 用 任何 附加 编译 选项 ， 只 使 用 默认 选项 ，GCC 4.7.3 将 插入 “探测 “检测 代 
码 : 


Listing 18.3: GCC 4.7.3 


.string "hi! %d, %d, %d 


Ts 
push ebp 
mov ebp, esp 
push ebx 
sub esp, 676 
lea ebx, [esp+39] 
and ebx, -16 
mov DWORD PTR [esp+20], 3 
mov DWORD PTR [esp-*16], 2 
mov DWORD PTR [esp-*12], 1 
mov DWORD PTR [esp+8], OFFSET FLAT:.LCO ; "hi! %d, % 
d, %d 
mov DWORD PTR [esp+4], 600 
mov DWORD PTR [esp], ebx 
mov eax, DWORD PTR gs:20 ; canary 
mov DWORD PTR [ebp-12], eax 
xor eax, eax 
call _snprintf 
mov DWORD PTR [esp], ebx 
call puts 
mov eax, DWORD PTR [ebp-12] 
xor eax, DWORD PTR gs:20 ; canary 
jne i5 
mov ebx, DWORD PTR [ebp-4] 
leave 
ret 
SSS 


call | stack chk fail 


随机 值 存在 于 gs:20。 它 被 写 入 到 堆栈 ， 在 函数 的 结尾 与 gs:20 的 探测 值 对 比 ， 如 果 
不 一 致 ，_ stack_chk failz Zt KAYA » 42 #] 6 (Ubuntu 13.04 x86) 将 输出 以 下 信 
息 : 


Ww 


*** buffer overflow detected ***: 


c] 


/1ib/1i1386-linux-gnu/libc. 
/1ib/1i1386-linux-gnu/libc. 
/1ib/1i1386-linux-gnu/libc. 


./2. 1[0x8048404] 


/1ib/1i1386-linux-gnu/libc. 


08048000 -08049000 
08049000 -0804a000 
0804a000 -0804b000 
094d1000-094f2000 
b7560000-b757b000 
u/libgcc_s.so.1 
b757b000-b757c000 
u/libgcc_s.so.1 
b757c000-b757d000 
u/libgcc_s.so.1 
b7592000-b7593000 
b7593000-b7740000 
u/libc-2.17.so 
b7740000-b7742000 
u/libc-2.17.so 
b7742000-b7743000 
u/libc-2.17.so 
b7743000-b7746000 
b775a000-b775d000 
b775d000-b775e000 
b775e000-b777e000 
u/ld-2.17.so 
b777e000-b777f000 
u/ld-2.17.so 
b777f000-b7780000 
u/ld-2.17.so 
bff35000-bff56000 


Backtrace: 
/lib/i386-linux-gnu/libc. 
/lib/i386-linux-gnu/libc. 
/lib/i386-linux-gnu/libc. 
/lib/i386-linux-gnu/libc. 


Memory map: 


rw-p 


rw-p 


Aborted (core dumped) 


.6( 


.6( 


00000000 
00000000 
00001000 
00000000 
00000000 
0001a000 
0001b000 


00000000 
00000000 


001ad000 
001af000 
00000000 
00000000 
00000000 
00000000 
0001f000 
00020000 


00000000 


08 
08 
08 
00 
08 
08 
08 


00 


08 
08 
00 
00 
00 
08 
08 
08 


00 


有 


:01 
:01 
:01 
:00 
:01 


:01 
:01 


:00 
08: 


01 


:01 
:01 
:00 
:00 
:00 
:01 
:01 
:01 


:00 


1 terminated 


,6( fortify fail-0x63)[0xb7699bc3] 
.6(40x10593a) [0xb769893a] 
.6(40x105008) [0xb7698008] 

.6( IO default xsputn-*0x8c)[0xb7606e5 


.6( IO vfprintf40x165)[0xb75d7a45] 
__vsprintf_chk+0xc9) [0xb76980d9 ] 
.6(__sprintf_chk+0x2Ff ) [0xb7697fef | 


__libc_start_main+0xf5) [0xb75ac935 


2097586 /home/dennis/2 1 
2097586 /home/dennis/2 1 
2097586 /home/dennis/2 1 

© [heap] 

1048602 /lib/i386-linux-gn 
1048602 /lib/i386-linux-gn 
1048602 /lib/i386-linux-gn 


9 
1050781 /1lib/i386-linux-gn 


1050781 /1lib/i386-linux-gn 
1050781 /lib/i386-linux-gn 
0 

0 

© [vdso] 

1050794 /lib/i386-linux-gn 
1050794 /lib/i386-linux-gn 
1050794 /lib/i386-linux-gn 


© [stack] 


gs 被 叫做 段 寄 存 器 ， 这 些 寄存 器 被 广泛 用 在 MS-DOS 和 扩展 DOS 时 代 。 现 在 的 作用 
和 以 前 不 同 。 简 要 的 说 ， gs 吞 存 器 在 linux 下 一 直 指 向 TLS 8) -- 存 储 线程 的 各 种 
信息 (win32 环 境 下 ，fs 寄 存 器 同样 的 作用 ， 指 向 TIB8 9) 。 更 多 信息 请 参考 linux 
源码 arch/x86/include/asm/stackprotector.h (至 少 3.11 版 本 ) ° 


18.3.1 Optimizing Xcode (LLVM) + thumb-2 mode 


我 们 回头 看 简单 的 数组 例子 (18.1)。 我 们 来 看 LLVM 如 何 检查 “探测 值 "。 


_main 

var_64 
var_60 
var_5C 
var. 58 
var. 54 
var 50 
var. AC 
var. 48 
var. 44 
var. 40 
var. 3C 
var. 38 
var. 34 
var. 30 
var. 2C 
var 28 
var. 24 
var 20 
var. 1C 
var. 18 
canary 
var. 10 


{R4-R7, LR} 


R7, 
R8, 
SP, 
RO, 
R2, 
RO, 
R5, 
RO, 
R8, 
RO, 
RO, 


SP, #0xC 

[SP, 40xC*var. 10]! 
SP, 40x54 
#aObjc_methtype ; 
#0 

#0 

#0 

PC 

[RO] 

[R8] 

[SP, #0x64+canary ] 
#2 

[SP, #0x64+var_64 ] 
[SP, #0x64+var_60] 
#4 

[SP, #0x64+var_5C] 
#6 

[SP, #0x64+var_58] 
#8 

[SP, #0x64+var_54] 
#0XA 

[SP, #0x64+var_50] 
ZOxC 

[SP, #0x64+var_4C ] 
ZOxE 


"objc methtype" 


STR RO, [SP,#0x64+var_48] 
MOVS RO, #0x10 


STR RO, [SP,40x64-var. 44] 
MOVS RO, #0x12 

STR RO, [SP,#0x64+var_40] 
MOVS RO, #0x14 

STR RO, [SP,#0x64+var_3C] 
MOVS RO, 40x16 

STR RO, [SP,#0x64+var_38 | 
MOVS RO, #0x18 

STR RO, [SP,#0x64+var_34 ] 
MOVS RO, #0x1A 

STR RO, [SP,#0x64+var_30 | 
MOVS RO, #0x1C 

STR RO, [SP,#0x64+var_2C | 
MOVS RO, #0x1E 

STR RO, [SP,#0x64+var_28 | 
MOVS RO, #0x20 

STR RO, [SP,#0x64+var_24 | 
MOVS RO, #0x22 

STR RO, [SP,#0x64+var_20 | 
MOVS RO, #0x24 

STR RO, [SP,#0x64+var_1C ] 
MOVS RO, #0x26 

STR RO, [SP,#0x64+var_18 ] 
MOV R4, OxFDA ; "a[%d]=%d 
MOV RO, SP 

ADDS R6, RO, #4 

ADD R4, PC 

B loc 2F1C 


; Second loop begin 


loc 2F14 
ADDS RO, R5, #1 
LDR.W R2, [R6,R5,LSL#2] 
MOV R5, RO 
loc 2F1C 
MOV RO, R4 
MOV R1, R5 
BLX _printf 
CMP R5, #0x13 
BNE loc_2F14 
LDR.W RO, [R8] 
LDR R1, [SP,#0x64+canary ] 
CMP RO, R1 
ITTTT EQ ; canary still correct? 


MOVEQ RO, #0 

ADDEQ SP, SP, #0x54 

LDREQ.W R8, [SP+0x64+var_64],#4 
POPEQ — (R4-R7,PC) 

BLX . stack chk fail 


首先 可 以 看 到 ，LLVM 循 环 展开 写 入 数组 ，LLVM 认 为 先 计 算出 数组 元 素 的 值 速 度 更 
快 。 在 函数 的 结尾 我 们 能 看 到 “探测 值 “ 的 检测 一 局 部 存储 的 值 与 R8 指 向 的 标准 值 对 
比 。 如 果 相 等 4 指令 块 将 通过 ?ITTTT EQ È > ROS AO? BEN 如 果 不 相 

等 ， $ 令 块 将 不 会 被 触发 ， 跳 向 — stack_chk_fail Hak > 2 E SE © 


18.4 One more word about arrays 


现在 我 们 来 理解 下 面 的 C/C++ 代 码 为 什么 不 能 正常 使 用 10 : 


void f(int size) 
int a[size]; 


这 是 因为 在 编译 阶段 编译 器 ee oe d > 无 法 
分 配 具 体 空间 。 如 果 你 需要 任意 大 小 的 数组 ， 应 该 通过 malloc() 分 配 空 间 ， 然 后 访 
问 内 存 块 来 访问 你 需要 的 类 型 数组 。 Nb eer quati , gs 内 部 看 起 
来 更 像 alloca()(4.2.4)。 


18.5 指向 字符 串 的 数组 
18.5.1 x64 

32-bit MSVC 

18.5.2 32-bit ARM 

ARM in ARM mode 

ARM in Thumb mode 
18.5.3 ARM64 

18.5.4 MIPS 

18.5.5 数组 溢出 


数组 溢出 保护 


18.6 多 维 数 组 


多 维 数组 和 线性 数组 在 本 质 上 是 一 样 的 。 因 为 计算 机 内 存 是 线性 的 ， 它 是 一 维 数 
组 。 但 是 一 维 数组 可 以 很 容易 用 来 表现 多 维 的 。 比如 数组 a[3][4] 元 素 可 以 放置 在 一 
维 数组 的 12 个 单元 中 : 


[9j[9j 
[9j [1] 
[9][2] 
[9][3] 
[1][9] 
[1][4] 
[1][5] 
[1][6] 
[2][0] 
[2][7] 
[2][8] 
[2][9] 


该 二 维 数组 在 内 存 中 用 一 维 数组 索引 表示 为 : 


1 2 3 
4 5 6 T 


8 9 10 11 
为 了 计算 我 们 需要 的 元 素 地 址 ， 首 先 ， 第 一 个 索引 乘 以 4 (FERRE) ， 然 后 加 上 
第 二 个 索引 。 这 种 被 称 为 行 优先 ，C/C++ 和 Python 常用 这 种 方法 。 行 优先 的 意思 
是 : 先 写 入 第 一 行 ， 接 着 是 第 二 行 ，...， 最 后 是 最 后 一 行 。 另 一 种 方法 就 是 列 优 
先 ， 主 要 用 在 FORTRAN,MATLAB,R 等 。 列 优先 的 意思 是 : 先 写 入 第 一 列 ， 然 后 是 
第 二 列 ，...， 最 后 是 最 后 一 列 。 


18.6.1 二 维 数组 的 例子 

行 填充 的 例子 

列 填 充 的 例子 

18.6.2 像 一 位 数组 那样 访问 二 维 数组 


18.6.3 多 维 数组 
多 维 数 组 与 此 类 似 。 我 们 看 个 例子 : 


Listing 18.4: simple example 


Zinclude «stdio.h» 


int a[10][20][30]; 


void insert(int x, int y, int z, int value) 


a[x][y][z]-value; 


x86 


MSVC 2010 : 
Listing 18.5: MSVC 2010 


DATA 
COMM 
DATA 
PUBLIC 


_y$ = 12 
z$ = 16 
_value$ 
_insert 
push 
mov 
mov 
imul 
mov 
imul 
lea 


mov 
mov 
mov 
pop 
ret 
_insert 
_ TEXT EN 


SEGMENT 


a: DWORD : 01770H 


ENDS 
insert 


SEGMENT 


- 20 
PROC 
ebp 
ebp, 
eax, 
eax, 
ecx, 
ecx, 
edx, 


eax, 
ecx, 


, 
, 
/ 
, 


size 
size 
size 
size 


esp 
DWORD 
2400 
DWORD 
120 
DWORD 


DWORD 
DWORD 


Ho H H dH 
人 上 二 上 


PTR 


PTR 


PTR 


PTR 
PTR 


_x$[ebp ] 
_y$[ebp ] 
_a[eax+ecx ] 


_z$[ebp ] 
_value$[ebp ] 


DWORD PTR [edxt+eax*4], ecx 


ebp 
0 
ENDP 
DS 


, 


, 


eax-600*4*x 


ecx-30*4*y 
edx=a + 600*4*x + 30*4 


*(edx+z*4)=value 


多 维 数 组 计算 索引 公式 : address=6004x+304y+4z » A Aintk # A 32-bits (4 字 
Y) ， 所 以 要 乘 以 4。 


Listing 18.6: GCC 4.4.1 


public insert 


insert proc near 


X - dword ptr 8 
y = dword ptr OCh 
Z = dword ptr 10h 
value = dword ptr 14h 
push ebp 
mov ebp, esp 
push ebx 
mov ebx, [ebp+x] 
mov eax, [ebp+y] 
mov ecx, [ebp+z] 
lea edx, [eax+eax] ; edx=y*2 
mov eax, edx ; eax=y*2 
shl eax, 4 ; eax=(y*2)<<4 = y*2*16 = y*32 
sub eax, edx ; eax=y*32 - y*2=y*30 
imul edx, ebx, 600 ; edx=x*600 
add eax, edx ; eax=eax+edx=y*30 + x*600 
lea edx, [eax+ecx] ; edx=y*30 + x*600 + z 
mov eax, [ebp+value] 
mov dword ptr ds:a[edx*4], eax ; *(a+edx*4)=value 
pop ebx 
pop ebp 
retn 


insert endp 


GCC 使 用 的 不 同 的 计算 方法 。 为 计算 第 一 个 操作 值 30y，GCC 没 有 使 用 乘法 指令 。 
GCC 的 做 法 是 : (222? + 2277) « 4 - (277? + 22722) = (2222?) K 4 - 22??? = 2 
.16 - 2222 - 227222 = 322??? - 2222? = 30??3?3。 因 此 30y 的 计算 仅 使 用 加 法 


和 移 位 操作 ， 这 样 速 度 更 快 


o 


ARM + Non-optimizing Xcode (LLVM) + thumb mode 


Listing 18.7: Non-optimizing Xcode (LLVM) + thumb mode 


insert 


value = -0x10 
Z = -OxC 
y = -8 
X = -4 


; allocate place in local stack for 4 values of int type 
SUB SP, SP, 40x10 


MOV R9, OxFC2 ; a 

ADD R9, PC 

LDR.W R9, [R9] 

STR RO, [SP,#0x10+x] 

STR R1, [SP,#0x10+y] 

STR R2, [SP,#0x10+z] 

STR R3, [SP,#0x10+value] 
LDR RO, [SP,#0x10+value] 
LDR R1, [SP,#0x10+z] 

LDR R2, [SP,#0x10+y] 

LDR R3, [SP,#0x10+x] 

MOV R12, 2400 

MUL.W R3, R3, R12 

ADD R3, R9 

MOV R9, 120 

MUL.W R2, R2, R9 

ADD R2, R3 

LSLS R1, Ri, 42 ; R1=R1<<2 

ADD R1, R2 

STR RO, [R1] ; R1 - address of array element 
; deallocate place in local stack, allocated for 4 values of int 
type 

ADD SP, SP, 40x10 

BX LR 


非 优 化 的 LLVM 代 码 在 栈 中 保存 了 所 有 变量 ， 这 是 宛 余 的 。 元 素 地 址 的 计算 我 们 通 
过 公式 已 经 找到 了 。 


ARM + Optimizing Xcode (LLVM) + thumb mode 


Listing 18.8: Optimizing Xcode (LLVM) + thumb mode 


insert 


MOVW R9, £ZO0x10FC 

MOV.W R12, #2400 

MOVT.W R9, #0 

RSB.W R1, R1, R1,LSL#4 Ri c aye RIEV AV E VO V 
= y*15 

ADD R9, PC ; R9 - pointer to a array 

LDR.W R9, [R9] 

MLA.W RO, RO, R12, R9 ; RO - x, R12 - 2400, R9 - point 
er to a. RO=x*2400 + ptr to a 

ADD.W RO, RO, R1,LSL#3 ; RO = RO+R1<<3 = RO+R1*8 = x*24 


00 + ptr to a + y* 1578 = 
; ptr to a + y*30*4 + x*600*4 


STR.W R3, [RO,R2,LSLZ2] ; R2 - z, R3 - value. address=RO 
+Z*4 = 

; ptr to a + y*30*4 + x*600*4 + 
z*4 
BX LR 


这 里 的 小 技巧 没有 使 用 乘法 ， 使 用 移 位 、 加 减法 等 。 这 里 有 个 新 指令 RSB (逆向 减 
Ek) ， 该 指令 的 意义 是 让 第 一 个 操作 数 像 SUB 第 二 个 操作 数 一 样 可 以 应 用 LSL 业 附 
加 操作 。“LDR.W RQ, [R9]? 类 似 于 x86 下 的 LEA 指 令 (B.6.2) ， 这 里 什么 都 没有 
做 ， 是 宛 余 的 。 显 然 ， 编 译 器 没有 优化 它 。 


MIPS 
18.6.4 更 多 的 例子 

18.7 讲 打 包 的 字符 串 作 为 数组 
18.7.1 32-bit ARM 

18.7.2 ARM64 

18.7.3 MIPS 


18.7.4 Conclusion 
18.8 结论 


18.9 练习 


数组 
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第 十 九 章 


操纵 特殊 的 bit 


很 多 函数 参数 的 输入 标志 使 用 了 位 域 。 当 然 ， 可 以 使 用 bool 类 型 来 蔡 代 ， 只 是 有 点 
RR ° 


19.1 Specific bit checking 


x86 


Win32 API 例子 : 


HANDLE fh; 


fhzCreateFile("file", GENERIC WRITE | GENERIC READ, FILE SHA 
RE READ, NULL, OPEN ALWAYS, FILE ATTRIBUTE NORMAL, NULL); 


MSVC 2010 : Listing 17.1: MSVC 2010 


push 0 
push 128 ; 00000080H 
push 4 
push 0 
push 1 
push -1073741824 ; c0000000H 


push OFFSET $SG78813 
call DWORD PTR imp CreateFileA@28 
mov DWORD PTR _fh$[ebp], eax 


我 们 再 查看 WinNT h: 
Listing 17.2: WinNT.h 


#define GENERIC READ (0x80000000L) 
4define GENERIC WRITE (0x40000000L) 
4define GENERIC EXECUTE (0x200000060L) 
#define GENERIC ALL (0x100000060L) 


容易 看 出 GENERIC_READ | GENERIC_WRITE = 0x80000000 | 0x40000000 = 
0xC0000000， 该 值 作为 CreateFile()1 有 函数 的 第 二 个 参数 。 CreateFile() 如 何 检查 该 
标志 呢 ? 以 Windows XP SP3 x86 为 例 ， 在 kernel32.dll 中 查看 CreateFileW 检 查 该 
标志 的 代码 片段 : Listing 17.3: KERNEL32.DLL (Windows XP SP3 x86) 


.text:7C83D429 test byte ptr [ebp+dwDesiredAccess+3], 40h 
.text:7C83D42D mov [ebp+var 8], 1 

.text:7C83D434 jz short loc 7C83D417 

.text:7C83D436 jmp loc 7C810817 


我 们 来 看 TEST 指令 ， 该 指令 并 未 检测 整个 第 二 个 参数 ， 仅 检测 关键 的 一 个 字 节 
(ebp+dwDesiredAccess+3)， 检 测 0x40 标 志 (这 里 代表 GENERIC_WRITE 标 

志 ) 。 Test 对 两 个 参数 (目标 ， 源 ) 执 行 AND 人 逻辑 操作 ,并 根据 结果 设置 标志 寄存 器 ， 
结果 本 身 不 会 保存 (CMP 和 SUB 与 此 类 似 (6.6.1) ) 。 该 代码 片段 逻辑 如 下 : 


if ((dwDesiredAccess&0x40000000) == 0) goto loc 7C83D417 


如 果 AND 指 令 没 有 设置 ZF 位 ，JZ 将 不 触发 跳 转 。 如 果 dwDesiredAccess 不 等 于 
0x40000000，AND 结 有 果 将 是 0，ZF 位 将 会 被 设置 ， 条 件 跳 转 将 被 触发 。 


我 们 在 linux GCC 4.4.1 下 查看 : 


#include <stdio.h> 
#include <fcntl.h> 
void main() 
int handle; 
handle=open ("file", O_RDWR | O CREAT); 
3 


我 们 得 到 : Listing 17.4: GCC 4.4.1 


public main 
main proc near 


var 2 dword ptr -20h 
var 1 dword ptr -1Ch 
var 4 = dword ptr -4 


O © 


push ebp 
mov ebp, esp 
and esp, OFFFFFFFOh 
sub esp, 20h 
mov [esp-*-20h-var 1C], 42h 
mov [esp-20h-var 20], offset aFile ; "file" 
call open 
mov [esp+20h+var_4], eax 
leave 
retn 
main endp 


Ki] £libc.so.6& F 4A open() £& x > Æ $lsyscall : Listing 17.5: open() (libc.so.6) 


.text:000BE69B mov edx, [esp+4+mode] ; mode 
.text:000BE69F mov ecx, [espt+4+flags] ; flags 
.text:000BE6A3 mov ebx, [esp+4+filename] ; filename 
.text:000BE6A7 mov eax, 5 

.text:000BEGAC int 80h ; LINUX - sys open 


因此 open() 对 于 标志 位 的 检测 在 内 核 中 。 对 于 linux2.6 ， 当 sys_open 被 调用 时 ， 最 
终 传 递 到 do_Ssys_open 内 核 函 数 ， 然 后 进入 do filp open() BAX (该 函数 位 于 源码 
fs/namei.c 中 ) » 除了 通过 堆栈 传递 参数 ， 还 可 以 通过 寄存 器 传递 方式 ， 这 种 调用 
方式 成 为 fastcall(47.3)。 这 种 调用 方式 CPU 不 需要 访问 堆栈 就 可 以 直接 读 取 参数 的 
值 ， 所 以 速度 更 快 。GCC 有 编译 选项 regram2， 可 以 设置 通过 寄存 器 传递 的 参数 的 
个 数 。 Linux2.6 内 核 编 译 附 加 选项 为 -mregram=33 4。 这 意味 着 前 3 个 参数 通过 
EAX ^ EDX 、ECX 寄 存 器 传递 ， 剩 余 的 参数 通过 堆栈 传递 。 如 果 参 数 小 于 3， 仅 部 
分 寄存 器 被 使 用 。 我 们 下 载 linux 内 核 2.6.31 源 码 ， 在 Ubuntu 中 编译 : make 
vmlinux， 在 IDA 中 打开 ， 找 到 do filp_open() 函 数 。 在 开始 部 分 我 们 可 以 看 到 【〈 注 
释 个 人 添加 ) : Listing 17.6:do filp open() (linux kernel 2.6.31) 


do filp open proc near 


push ebp 

mov ebp, esp 

push edi 

push esi 

push ebx 

mov ebx, ecx 

add ebx, 1 

sub esp, 98h 

mov esi, [ebp+arg 4] ; acc mode (5th arg) 
test bl, 3 

mov [ebp-var 80], eax ; dfd (1th arg) 

mov [ebp-var 7C], edx ; pathname (2th arg) 
mov [ebp-var 78], ecx ; open flag (3th arg) 
jnz short loc CO1EF684 

mov ebx, ecx ; ebx «- open flag 


GCC 保存 3 个 参数 的 值 到 堆栈 。 否 则 ， 可 能 会 造成 寄存 器 浪费 。 我 们 来 看 代码 片 
Bt: Listing 17.7: do filp open() (linux kernel 2.6.31) 


loc CO1EF6BA4: ; CODE XREF: do filp open-4F 
test bl, 40h ; O_CREAT 
jnz loc_C01EF810 
mov edi, ebx 
shr edi, 11h 
xor edi, 1 
and edi, 1 
test ebx, 10000h 
jz short loc CO1EF6D3 
or edi, 2 


O CREATZ # T 0x40 > 4«JK&open flag 为 0x40， 标 志 位 被 置 1， 接 下 来 的 JNZ 指 令 
将 被 触发 。 


ARM 


Linux kernel3.8.0 检 测 O_CREAT 过 程 有 点 不 同 。Listing 17.8: linux kernel 3.8.0 


struct file *do filp open(int dfd, struct filename *pathname, co 
nst struct open flags *op) 
{ 

. filp = path openat(dfd, pathname, &nd, op, flags | LOOKUP RC 
U); 
j 


static struct file *path openat(int dfd, struct filename *pathna 
me, struct nameidata *nd, const struct open flags *op, int flags 


) 


{ 
. error = do_last(nd, &path, file, op, &opened, pathname); 


} 


static int do_last(struct nameidata *nd, struct path *path, stru 
ct file *file, const struct open_flags *op, int *opened, struct 
filename *name) 


{ 
if (!(open flag & O CREAT)) { 
error - lookup fast(nd, path, &inode); 
} else { 
. error = complete walk(nd); 
} 
} 


在 IDA 中 查看 ARM 模 式 内 核 : Listing 17.9: do_last() (vmlinux) 


.text:CO169EA8 MOV R9, R3 ; R3 - (4th argument) open f 
lag 


. text :C0169ED4 LDR R6, [R9] ; R6 - open_flag 
.text:C0169F68 TST R6, 40x40 ; jumptable CO169F00 defa 
ult case 

.text:C0169F6C BNE loc C016A128 
.text:C0169F70 LDR R2, [R4,#0x10] 

.text :C0169F74 ADD R12, R4, £8 
.text:C0169F78 LDR R3, [R4,#0xC] 
.text:C0169F7C MOV RO, R4 

.text:C0169F80 STR R12, [R11,£var. 50] 
.text:C0169F84 LDRB R3, [R2,R3] 
.text:C0169F88 MOV R2, R8 

.text:C0169F8C CMP R3, #0 

.text:C0169F90 ORRNE R1, Ri, #3 

.text:C0169F94 STRNE R1, [R4,#0x24] 
.text:C0169F98 ANDS R3, R6, #0x200000 
.text:C0169F9C MOV R1, R12 

.text:C0169FA0 LDRNE R3, [R4,#0x24] 

.text :C0169FA4 ANDNE R3, R3, #1 

.text:C0169FA8 EORNE R3, R3, #1 

.text:C0169FAC STR R3, [R11,Zvar. 54] 
.text:CO169FBO SUB R3, R11, £-var 38 
.text:CO169FB4 BL lookup fast 
.text:C016A128 loc C016A128 ; CODE XREF: do last.isra.1 
4+DC 

.text:C016A128 MOV RO, R4 


.text:C016A12C BL complete walk 


TST 指 令 类 似 于 x86 下 的 TEST 指令 。 ik FEIN X E do last) hA » p RAS X 
lookup fast()fecomplete walk()。 这 里 O_CREAT 宏 也 等 于 0x40。 


19.2 Specific bit setting/clearing 


例如 : 


#define IS SET(flag, bit) ((flag) & (bit)) 
#define SET_BIT(var, bit) ((var) |= (bit)) 
#define REMOVE_BIT(var, bit) ((var) &= ~(bit)) 
int f(int a) 


int rt=a; 
SET BIT (rt, 0x4000); 
REMOVE BIT (rt, 0x200); 


return rt; 


HH 


19.2.1 x86 


Non-optimizing MSVC 


MSVC 2010: Listing 17.10: MSVC 2010 


a$ = 8; size = 4 

_f PROC 

push ebp 

mov ebp, esp 

push ecx 

mov eax, DWORD PTR _a$[ebp] 

mov DWORD PTR _rt$[ebp], eax 

mov ecx, DWORD PTR _rt$[ebp] 

or ecx, 16384 ; 00004000H 
mov DWORD PTR _rt$[ebp], ecx 

mov edx, DWORD PTR _rt$[ebp] 

and edx, -513 ; fffffdffH 
mov DWORD PTR rt$[ebp], edx 

mov eax, DWORD PTR _rt$[ebp] 

mov esp, ebp 

pop ebp 

ret 0 

f ENDP 


OR 指令 添加 一 个 或 多 个 bit 位 而 忽略 了 其 余 位 。AND 用 来 重 置 一 个 bit 位 。 
OllyDbg 


Optimizing MSVC 


如 果 我 们 使 用 msvc 编 译 ， 并 且 打 开 优 化 选项 (/Ox)， 代 码 将 会 更 短 Listing 17.11: 
Optimizing MSVC 


_a$ = 8 ; size = 4 

f PROC 
mov eax, DWORD PTR _a$[esp-4] 
and eax, -513 ; fffffdffH 
or eax, 16384 ; 00004000H 
ret 0 

f ENDP 


Non-optimizing GCC 


我 们 来 看 GCC 4.4.1 无 优化 的 代码 : 


public f 
f proc near 
var 4 - dword ptr -4 
arg 0 - dword ptr 8 
push ebp 


mov ebp, esp 
sub esp, 10h 
mov eax, [ebp+arg 0] 
mov [ebp-*var 4], eax 
or [ebp-var 4], 4000h 
and [ebp*var 4], OFFFFFDFFh 
mov eax, [ebp-var. 4] 
leave 
retn 
T endp 


Optimizing GCC 
MSVCAR LAU KABA ETR. 现在 我 们 来 看 GCC 打开 优化 选项 -O3 : 
Listing 17.13: Optimizing GCC 


public f 
is proc near 
arg O = dword ptr 8 
push ebp 


mov ebp, esp 
mov eax, [ebp+arg 0] 
pop ebp 
or ah, 40h 
and ah, OFDh 
retn 
f endp 


代码 更 短 。 值 得 注意 的 是 编译 器 使 用 了 AH 寄存 器 -EAX 寄存 器 8bit-15bit 部 分 。 





8086 16 位 CPU 累加 器 被 称 为 AX， 和 包含 两 个 8 位 部 分 ( 低 字 节 ) 和 AH (高 字 
节 ) 。 在 80386 下 所 有 寄存 器 被 扩展 为 32 位 ， 累 加 器 POM 为 了 保持 兼容 
性 ， 它 的 老 的 部 分 仍 可 以 作为 AX/AH/AL 寄 存 器 、 因为 所 有 的 x86 CPU 都 兼 
容 于 16 位 CPU， 所 以 老 的 16 位 操作 码 比 32 位 操作 码 更 短 。”or ah,40h” 指 令 仅 复制 3 
个 字 节 上 比 “or eax,04000h” 需 要 复制 5 个 字 节 甚至 6 个 字 节 (如 果 第 一 个 操作 码 不 是 
EAX) 更 合理 。 


Optimizing GCC and regparm 
编译 时 候 开 局 -O3 并 且 设 置 regram=3 生 成 的 代码 会 更 短 。 
Listing 19.14: Optimizing GCC 


public f 
fi proc near 
push ebp 
or ah, 40h 

mov ebp, esp 
and ah, OFDh 
pop ebp 
retn 

f endp 


事实 上 ， 第 一 个 参数 已 经 被 加 载 到 EAX 了 ， 所 以 可 以 直接 使 用 了 。 值 得 注意 的 是 ， 
函数 序言 (push ebp/mov ebp,esp) 和 结语 (pop ebp) 很 容易 被 忽略 。GCC 并 没 
有 优化 掉 这 些 代 码 。 更 短 的 代码 可 以 使 用 内 联 有 函数 (27) © 


19.2.2 ARM + Optimizing Keil + ARM mode 


Listing 19.15: Optimizing Keil + ARM mode 


02 OC CO E3 BIC RO, RO, #0x200 
01 09 80 E3 ORR RO, RO, #0x4000 
JSESEESSESES BX LR 


BIC “22 fang" € AT x86 F 99 AND ° ORRUE"Z sor" RA T x86 F AOR ° 


19.2.3 ARM + Optimizing Keil + thumb mode 


Listing 19.16: Optimizing Keil + thumb mode 


01 21 89 03 MOVS R1, 0x4000 


08 43 ORRS RO, R1 

49 11 ASRS R1, R1, #5 ; generate 0x200 and place to R1 
88 43 BICS RO, R1 

70 47 BX LR5 


从 0x4000 右 移 生 成 0xX200， 采 用 移 位 使 代码 更 简洁 。 


19.2.4 ARM + Optimizing Xcode (LLVM) + ARM mode 


Listing 19.17: Optimizing Xcode (LLVM) + ARM mode 


42 OC CO E3 BIC RO, RO, #0x4200 
01 09 80 E3 ORR RO, RO, #0x4000 
1E FF 2F Ei BX LR 


该 代码 由 LLVM 生 成 ， 从 源码 形式 上 看 ， 看 起 来 更 像 是 : 


REMOVE BIT (rt, 0x4200); 
SET BIT (rt, 0x4000); 


为 什么 是 0x4200? 可 能 是 编译 器 构造 的 5， 可 能 是 编译 器 编译 错误 ， 但 生成 的 代码 是 
可 用 的 。 更 多 编译 器 异常 请 参考 相关 资料 (67) © 对 于 thumb 模 式 ， 优 化 
Xcode(LLVM) 生 成 的 代码 相似 。 


19.2.5 ARM: more about the BIC instruction 
19.2.6 ARM64: Optimizing GCC (Linaro) 4.9 
19.2.7 ARM64: Non-optimizing GCC (Linaro) 4.9 
19.2.8 MIPS 

19.3 Shifts 

C/C++ 的 移 位 操作 通过 << 和 >> 实 现 。 

19.4 设 定 并 请 除 特定 的 bit 


19.4.1 关于 措 或 的 一 点 


19.4.2 x86 

19.4.3 MIPS 

19.4.4 ARM 

Optimizing Keil 6/2013 (ARM mode) 
Optimizing Keil 6/2013 (Thumb mode) 


Optimizing GCC 4.6.3 (Raspberry Pi, ARM mode) 


19.5 计数 bit 来 置 1 
这 里 有 一 个 例子 函数 ， 计 算 输 入 变量 有 多 少 个 位 被 置 为 1 


#define IS SET(flag, bit) ((flag) & (bit)) 
int f(unsigned int a) 


int i; 
int rt=0; 
for (i=0; i<32; i++) 
if (IS_SET (a, 1<<i)) 
rtt-t; 
return rt; 


在 循环 中 ， 和 迭代 计数 从 0 到 31， 1<<i 语句 将 计数 从 1 到 0x80000000。1<<i 即 1 左 
移 n 位 ， 将 包含 32 位 数字 所 有 可 能 的 bit 位 。 每 次 移 位 仅 有 1 位 被 置 1， 其 它 位 均 为 0 ， 
IS_SET 宏 将 判断 a 对 应 的 位 是 否 置 1。 





IS_SET 宏 就 是 逻辑 与 (AND) 操 作 ， 如 果 对 应 的 位 不 为 1， 则 返回 0。if 条 件 表 达 式 如 
果 不 为 0，if() 将 被 触发 。 


19.5.1 x86 


MSVC 


MSVC 2010: 
Listing 19.18: MSVC 2010 


_rt$ = -8 Sige. — l 
.i$ = -4 1 SAO S 
_a$ = 8 ; size = 4 
f PROC 
push ebp 
mov ebp, esp 
sub esp, 8 
mov DWORD PTR rt$[ebp], 0 
mov DWORD PTR _i$[ebp], © 
jmp SHORT $LN4@f 
$LN3@F 
mov eax, DWORD PTR _iS[ebp] ; increment of 1 
add eax, 1 
mov DWORD PTR _i$[ebp], eax 
$LN4@F 
cmp DWORD PTR _i$[ebp], 32 ; 00000020H 
jge SHORT $LN2@f ; loop finished? 
mov edx, 1 
mov ecx, DWORD PTR _i$[ebp] 
shl edx, cl ; EDX-EDX««CL 
and edx, DWORD PTR _a$[ebp] 
je SHORT $LN1Qf ; result of AND instruction was 
0? 
; then skip next instructions 
mov eax, DWORD PTR _rt$[ebp] ; no, not zero 
add eax, 1 ; increment rt 
mov DWORD PTR rt$[ebp], eax 
SLN1Qf : 
jmp SHORT $LN3Qf 
SLN26f : 
mov eax, DWORD PTR _rt$[ebp] 
mov esp, ebp 
pop ebp 
ret 0 
_f ENDP 
OllyDbg 
GCC 


下 面 是 GCC 4.4.1 编 译 的 代码 : Listing 19.19: GCC 4.4.1 


public f 
f proc near 


rt = dword ptr -Och 
i = dword ptr -8 
arg 0 - dword ptr 8 
push ebp 
mov ebp, esp 
push ebx 


sub esp, 10h 
mov [ebptrt], © 
mov [ebpt+i], © 
jmp short loc_80483EF 
loc 80483D0: 
mov eax, [ebpti] 
mov edx, 1 
mov ebx, edx 
mov ecx, eax 
shl ebx, cl 
mov eax, ebx 
and eax, [ebp+arg 0] 
test eax, eax 
jz short loc 80483EB 
add [ebpt+rt], 1 
loc 80483EB: 
add [ebpti], 1 
loc 80483EF: 
cmp [ebp+i], 1Fh 
jle short loc_80483D0 
mov eax, [ebptrt] 
add esp, 10h 


pop ebx 
pop ebp 
retn 
f endp 
19.5.2 x64 


Non-optimizing GCC 4.8.2 
Optimizing GCC 4.8.2 
Optimizing MSVC 2010 


Optimizing MSVC 2012 
在 乘 以 或 者 除 以 2 的 指数 值 (1,2,4,8 等 ) 时 经 常 使 用 移 位 操作 。 例 如 : 


unsigned int f(unsigned int a) 


{ 
HH 


return a/4; 


MSVC 2010: Listing 19.20: MSVC 2010 


_a$ = 8 E sues al 
efr PROC 
mov eax, DWORD PTR _a$[esp-4] 
shr eax, 2 
ret 0 
_f ENDP 


例子 中 的 SHR (HA) 指令 将 a 值 右 移 2 位 ， 最 高 两 位 被 置 0， 最 低 2 位 被 丢弃 。 
实施 上 丢弃 的 两 位 是 除法 的 余数 。 SHR 作 用 类 似 SHL 只 是 移 位 方向 不 同 。 






SG 
EEEE 


使 用 十 进 制 23 很 好 来 理解 。23 除 以 10， 丢 弃 最 后 的 数字 (3 是 余数 ) ， 商 为 2。 与 
此 类 似 的 是 乘法 。 比 如 乘 以 4， 仅 需 将 数字 堪 移 2 位 ， 最 低 两 位 被 置 0。 就 像 3 乘 以 
100 一 仅仅 在 最 后 补 两 个 0 就 行 了 。 


19.5.3 ARM + Optimizing Xcode (LLVM) + ARM mode 


Listing 19.21: Optimizing Xcode (LLVM) + ARM mode 


MOV R1, RO 

MOV RO, #0 

MOV R2, #1 

MOV R3, RO 
loc 2b54 

TST R1, R2,LSL R3 ; set flags according to R1 & (R 
2««R3) 

ADD R3, R3, 41 ; R3++ 

ADDNE RO, RO, #1 ; if ZF flag is cleared by TST, 
RO++ 

CMP R3, #32 

BNE loc_2E54 

BX LR 


TST 类 似 于 x86 下 的 TEST 指令 。 正如 我 前 面 提 到 的 (14.2.1)，ARM 模 式 下 没有 单独 
的 移 位 指令 。 对 于 用 作 修 饰 的 LSL (BH) 、LSR (逻辑 右 移 ) 、ASR (算术 
E) 、ROR (循环 右 移 ) 和 RRX ( 带 扩 展 的 循环 右 移 指 令 ) ， 需 要 与 MOV ， 
TST > CMP > ADD > SUB» RSB2é A X4$ H6» 这 些 修饰 指令 被 定义 ， 第 二 个 操作 
数 指定 移动 的 位 数 。 因 此 “TST R1, R2,LSL R3” 指 令 所 做 的 工作 为 ????31 A (27722 
< 77223). 


19.5.4 ARM * Optimizing Xcode (LLVM) * thumb-2 mode 


几乎 一 样 ， 只 是 这 里 使 用 LSL.W/TST 指 令 而 不 是 只 有 TST。 因 为 Thumb 模 式 下 TST 
没有 定义 修饰 符 LSL。 


loc 2F7A 
LSL.W R2, R9, R3 
TST R2, R1 
ADD.W R3, R3, #1 
IT NE 
ADDNE RO, #1 
CMP R3, #32 
BNE loc 2F7A 
BX LR 


19.5.5 ARM64 + Optimizing GCC 4.9 

19.5.6 ARM64 + Non-optimizing GCC 4.9 

19.5.7 MIPS 

Non-optimizing GCC 

Optimizing GCC 

19.6 Conclusion 

19.6.1 Check for specific bit (known at compile stage) 


19.6.2 Check for specific bit (specified at runtime) 


19.6.3 Set specific bit (known at compile stage) 
19.6.4 Set specific bit (specified at runtime) 
19.6.5 Clear specific bit (known at compile stage) 


19.6.6 Clear specific bit (specified at runtime) 


19.7 练习 


hat 
用 线性 同 余生 成 器 来 产生 伪 随 机 数 
20.1 x86 

20.2 x64 

20.3 32-bit ARM 

20.4 MIPS 


其 他 线程 安全 的 版 本 的 例子 


第 二 十 一 章 


结构 体 


C/C++ 的 结构 体 可 以 这 么 定义 : 它 是 一 组 存储 在 内 存 中 的 变量 的 集合 ， 成 员 变量 类 
型 不 要 求 相同 。 


21.1 SYSTEMTIME 的 例子 


让 我 们 看 看 Win32 结 构 体 SYSTEMTIME 的 定义 : 
清单 21.1: WinBase.h 


typedef struct _SYSTEMTIME { 
WORD wYear; 
WORD wMonth; 
WORD wDayOfWeek; 
WORD wDay; 
WORD wHour; 
WORD wMinute; 
WORD wSecond; 
WORD wMilliseconds; 
) SYSTEMTIME, *PSYSTEMTIME; 


让 我 们 写 一 个 获取 当前 时 间 的 C 程 序 : 


Zinclude <windows.h> 
#include <stdio.h> 
void main() 


{ 
SYSTEMTIME t; 
GetSystemTime(&t); 
printf ("%04d-%02d-%02d %02d:%02d:%02d", 
t.wYear, t.wMonth, t.wDay, 
t.wHour, t.wMinute, t.wSecond); 
return; 
3 


反 汇 编 结果 如 下 (MSVC 2010) 
清单 21.2: MSVC 2010 


t$ = -16 ; size = 16 
main PROC 
push ebp 
mov ebp, esp 
sub esp, 16 ; 00000010H 
lea eax, DWORD PTR t$[ebp] 
push eax 
call DWORD PTR imp JGetSystemTimeQ4 
movzx ecx, WORD PTR _t$[ebp+12] ; wSecond 


push ecx 

movzx edx, WORD PTR _t$[ebp+10] ; wMinute 
push edx 

movzx eax, WORD PTR _t$[ebp+8] ; wHour 
push eax 

movzx ecx, WORD PTR _t$[ebp+6] ; wDay 
push ecx 

movzx edx, WORD PTR _t$[ebp+2] ; wMonth 
push edx 

movzx eax, WORD PTR _t$[ebp] ; wYear 
push eax 


push OFFSET $SG78811 ; ’%04d-%02d-%02d %02d:%02d:%O02d’, OaH, 
00H 
call _printf 
add esp, 28 ; 0000001cH 
xor eax, eax 
mov esp, ebp 
pop ebp 
ret 0 
_main ENDP 


在 本 地 栈 上 程序 为 这 个 结构 体 分 配 了 16 个 字 节 : 这 正 是 sizeof(WORD)*8 的 大 小 
(因为 结构 体 里 有 8 个 WORD ) 。 请 注意 结构 体 是 由 WYear 开 始 的 ， 因 此 ， 我 们 既 
可 以 说 这 是 “ 传 给 GetSystemTime() 函 数 的 ， 一 个 指向 SYSTEMTIME 结 构 体 的 指 
针 ”， 也 可 以 说 是 它 “ 传 递 了 WYear 的 指针 ”。 这 两 种 说 法 是 一 样 的 | 
GetSystemTime() 部 数 会 把 当前 的 年 份 写 入 指向 的 WORD 指 针 中 ， 然 后 把 指针 向 后 
移动 2 个 字 节 (译注 : WORD 大 小 为 2 字 节 ) ， 再 写 入 月 份 ， 以 此 类 推 。 


21.1.1 OllyDbg 


21.1.2 用 结构 体 代 替 数 组 


事实 上 ， 结 构 体 的 成 员 其 实 就 是 一 个 个 紧 贴 在 一 起 的 变量 。 我 可 以 用 下 面 的 方法 来 
访问 SYSTEMTIME 结 构 体 ， 代 码 如 下 : 


Zinclude <windows.h> 
#include <stdio.h> 
void main() 


WORD array[8]; 
GetSystemTime (array); 
printf ("%04d-%02d-%02d %02d:%02d:%02d", 
array[0] /* wYear */, array[1] /* wMonth */, array[3] /* 
wDay */, 
array[4] /* wHour */, array[5] /* wMinute */, array[6] / 
* wSecond */); 
return; 


}; 
编译 器 会 稍稍 给 出 一 点 警告 : 


systemtime2.c(7) : warning C4133: ‘function’ : incompatible type 
S - from ‘WORD [8]' to “LPSYSTEMTIME 


不 过 至 少 ， 它 会 产生 如 下 代码 : 
清单 21.3: MSVC 2010 


$SG78573 DB “%04d-%02d-%02d 9?96024d:96024d:9602d' , OaH, OOH 
_array$ = -16 ; size = 16 
main PROC 

push ebp 

mov ebp, esp 

sub esp, 16 ; 00000010H 

lea eax, DWORD PTR _array$[ebp] 

push eax 

call DWORD PTR __imp__GetSystemTime@4 

movzx ecx, WORD PTR _array$[ebp+1i2] ; wSecond 


push ecx 

movzx edx, WORD PTR array$[ebp-*-10] ; wMinute 
push edx 

movzx eax, WORD PTR _array$[ebp+8] ; wHoure 
push eax 

movzx ecx, WORD PTR _array$[ebp+6] ; wDay 
push ecx 

movzx edx, WORD PTR _array$[ebp+2] ; wMonth 
push edx 

movzx eax, WORD PTR _array$[ebp] ; wYear 
push eax 


push OFFSET $SG78573 
call _printf 
add esp, 28 ; 0000001cH 
xor eax, eax 
mov esp, ebp 
pop ebp 
ret 0 
_main ENDP 


当然 ， 它 也 能 一 样 正 常 工作 ! 一 个 很 有 趣 的 情况 是 这 两 次 编译 结果 居然 一 样 ， 所 以 
光 看 编译 结果 ， 我 们 还 看 不 出 来 到 底 别 人 用 的 结构 体 还 是 单单 用 的 变量 数组 。 不 
过 ， 没 几 个 人 会 这 么 无 聊 的 用 这 种 方法 写 代 码 ， 因 为 这 太 麻 烦 了 。 还 有 ， 结 构 体 也 
有 可 能 会 被 开发 者 更 改 ， 交 换 ， 等 等 ， 所 以 还 是 用 结构 体 方便 。 


21.2 让 我 们 用 malloc() 为 结构 体 分 配 空 间 


但 是 ， 有 时 候 把 结构 体 放 在 堆 中 而 不 是 栈 上 却 更 简单 : 


Zinclude <windows.h> 
Zinclude «stdio.h» 
void main() 


{ 
SYSTEMTIME *t; 
t=(SYSTEMTIME *)malloc (sizeof (SYSTEMTIME)); 
GetSystemTime (t); 
printf ("%04d-%02d-%02d %02d:%02d:%02d", 
t->wYear, t->wMonth, t->wDay, 
t->wHour, t->wMinute, t->wSecond); 
free (t); 
return, 
3 


让 我 们 用 优化 /Ox 编译 一 下 它 ， 看 看 我 们 得 到 什么 东西 
清单 21.4: 优化 的 MSVC 


_main PROC 
push esi 
push 16 ; 00000010H 
call malloc 
add esp, 4 
mov esi, eax 
push esi 
call DWORD PTR imp JGetSystemTimeQ4 
movzx eax, WORD PTR [esi+12] ; wSecond 
movzx ecx, WORD PTR [esi+10] ; wMinute 
movzx edx, WORD PTR [esi+8] ; wHour 
push eax 
movzx eax, WORD PTR [esi+6] ; wDay 
push ecx 
movzx ecx, WORD PTR [esi+2] ; wMonth 
push edx 
movzx edx, WORD PTR [esi] ; wYear 
push eax 
push ecx 
push edx 
push OFFSET $SG78833 
call _printf 
push esi 
call _free 
add esp, 32 ; 00000020H 
xor eax, eax 
pop esi 
ret 0 
_main ENDP 


所 以 ，sizeof(SYSTEMTIME) = 16, 这 正 是 malloc 所 分 配 的 字 节 数 。 它 返回 了 刚刚 

分 配 的 地 址 空 闻 ， 这 个 指针 存在 EAX 寄存 器 里 。 然 后 ， 这 个 指针 会 被 移动 到 ESI 结 

存 器 中 ，GetSystemTime() 会 用 它 来 存储 返回 值 ， 这 也 就 是 为 什么 这 里 分 配 完 之 后 
并 没有 把 EAX 放 到 某 个 地 方 保存 起 来 ， 而 是 直接 使 用 它 的 原因 。 


新 指令 : MOVZX (Move with Zero eXtent ，0 扩 展 移 动 ) 。 它 可 以 说 是 和 MOVSX 
基本 一 样 (13.1.1 节 ) ， 但 是 ， 它 把 其 他 位 都 设置 为 0。 这 是 因为 printf() 需 要 一 个 32 
位 的 整数 ， 但 是 我 们 的 结构 体 里 面 是 WORD， 这 只 有 16 位 厂 。 这 也 就 是 为 什么 从 
WORD 复 制 到 INT 时 第 16~31 位 必须 清 零 的 原因 了 。 因 为 ， 如 果 不 清除 的 话 ， 剩 余 
位 可 能 有 之 前 操作 留 下 来 的 干扰 数据 。 


在 下 面 这 个 例子 里 面 ， 我 可 以 用 WORD 数 组 来 重 现 这 个 结构 : 


Zinclude <windows.h> 
Zinclude «stdio.h» 
void main() 


WORD *t; 

t-(WORD *)malloc (16); 

GetSystemTime (t); 

printf ("%04d-%02d-%02d %02d:%02d:%02d", 
t[0] /* wYear */, t[1] /* wMonth */, t[3] /* wDay */, 
t[4] /* wHour */, t[5] /* wMinute */, t[6] /* wSecond */ 

); 
free (t); 
return; 


我 们 得 到 : 


$SG78594 DB “%04d-%02d-%02d 9?96024d:96024d:9602d' , OaH, OOH 
_main PROC 
push esi 
push 16 ; 00000010H 
call malloc 
add esp, 4 
mov esi, eax 
push esi 
call DWORD PTR imp GetSystemTime@4 
movzx eax, WORD PTR [esi+12] 
movzx ecx, WORD PTR [esi+10] 
movzx edx, WORD PTR [esi+8] 
push eax 
movzx eax, WORD PTR [esi+6] 
push ecx 
movzx ecx, WORD PTR [esi+2] 
push edx 
movzx edx, WORD PTR [esi] 
push eax 
push ecx 
push edx 
push OFFSET $SG78594 
call _printf 
push esi 
call _free 
add esp, 32 ; 00000020H 
XOr eax, eax 
pop esi 
ret 0 
_main ENDP 


同样 ， 我 们 可 以 看 到 编译 结果 和 之 前 一 样 。 个 人 重申 一 次 ， 你 不 应 该 在 写 代码 的 时 
4& JE] 3X AULA ERRE © 


21.3 Unix: 23 #4 ‘Atm 


21.3.1 linux 
在 Linux 下 ， 我 们 看 看 time.h 中 的 tm 结构 体 是 什么 样子 的 : 


#include <stdio.h> 

#include <time.h> 

void main() 

{ 
struct tm t; 
time_t unix_time; 
unix_time=time(NULL); 
localtime_r (&unix_time, &t); 
printf ("Year: %d", t.tm_year+1900); 
printf ("Month: %d", t.tm mon); 
printf ("Day: %d", t.tm mday); 
printf ("Hour: %d", t.tm hour); 
printf ("Minutes: 9d", t.tm min); 
printf ("Seconds: 9*d", t.tm sec); 


HH 


在 GCC 4.4.1 下 编译 得 到 : 
清单 21.6 : GCC 44.1 


main proc near 
push ebp 
mov ebp, esp 
and esp, OFFFFFFFOh 
sub esp, 40h 
mov dword ptr [esp], O ; first argument for time() 
call time 
mov [esp+3Ch], eax 
lea eax, [esp+3Ch] ; take pointer to what time() returned 
lea edx, [esp*10h] ; at ESP+10h struct tm will begin 
mov [esp+4], edx ; pass pointer to the structure begin 
mov [esp], eax ; pass pointer to result of time() 
call localtime r 
mov eax, [esp+24h] ; tm year 
lea edx, [eax*76Ch] ; edx=eaxt+1900 
mov eax, offset format ; "Year: %d" 
mov [esp+4], edx 
mov [esp], eax 
call printf 
mov edx, [esp-*20h] ; tm mon 
mov eax, offset aMonthD ; "Month: 96d" 
mov [esp+4], edx 
mov [esp], eax 
call printf 
mov edx, [esp+1Ch] ; tm mday 
mov eax, offset aDayD ; "Day: %d" 
mov [esp+4], edx 
mov [esp], eax 
call printf 
mov edx, [esp+18h] ; tm hour 
mov eax, offset aHourD ; "Hour: %d" 
mov [esp+4], edx 
mov [esp], eax 
call printf 
mov edx, [esp+14h] ; tm min 
mov eax, offset aMinutesD ; "Minutes: 96d" 
mov [esp+4], edx 
mov [esp], eax 
call printf 
mov edx, [esp-*10h] 
mov eax, offset aSecondsD ; "Seconds: %d" 
mov [esp+4], edx ; tm sec 
mov [esp], eax 
call printf 
leave 
retn 
main endp 


可 是 ，1IDA 并 没有 为 本 地 栈 上 变量 建立 本 地 变量 名 。 但 是 因为 我 们 已 经 学 了 汇编 
了 ， 我 们 也 不 需要 在 这 么 简单 的 例子 里 面 如 此 依赖 它 。 


请 也 注意 一 下 lea edx, [eax+76ch]， 这 个 指令 把 eax 的 值 加 上 0x76c， 但 是 并 不 修改 
任何 标记 位 。 请 也 参考 LEA 的 相关 章节 (B.6.2 节 ) 


GDB 


为 了 表现 出 结构 体 只 是 一 个 个 的 变量 连续 排列 的 东西 ， 让 我 们 重新 测试 一 下 这 个 例 
子 ， 我 们 看 看 time.h : 清单 18.7 time.h 


struct tm 


1 . 
int 
int 
int 
int 
int 
int 
int 
int 
int 


o 


tm sec; 
tm min; 
tm hour; 
tm mday; 
tm mon; 
tm year; 
tm wday; 
tm yday; 
tm isdst; 


include <stdio.h> 
Zinclude <time.h> 
void main() 


( 


int 


tm sec, tm min, tm hour, tm mday, tm mon, tm year, 


ay, tm yday, tm isdst; 
time t unix time; 
unix time-time(NULL); 
localtime r (&unix time, &tm sec); 
printf ("Year: %d", tm year*1900); 
printf ("Month: %d", tm mon); 
printf ("Day: %d", tm mday); 
printf ("Hour: %d", tm hour); 
printf ("Minutes: %d", tm min); 
printf ("Seconds: 9*d", tm sec); 


1 


tm wd 


注 : 指向 tm_sec 的 指针 会 传递 给 localtime _r， 或 者 说 第 一 个 “结构 体 " 元 素 。 编译 器 
会 这 么 警告 我 们 


清单 18.8 GCC4.7.3 


GCC tm2. 


c: In function 'main': 


GCC tm2.c:11:5: warning: passing argument 2 of 'localtime r' fro 
m incompatible pointer type [ 


enabled 


by default] 


In file included from GCC tm2.c:2:0: 
/usr/include/time.h:59:12: note: expected 'struct tm *' but argu 


ment is 


of type ‘int *’ 


但 是 至 少 ， 它 会 生成 这 段 代 码 : 


清单 18.9 GCC 4.7.3 


main proc near 


var 30 - dword ptr -30h 
var 2C - dword ptr -2Ch 
unix time = dword ptr -1Ch 
tm sec - dword ptr -18h 
tm min - dword ptr -14h 
tm hour = dword ptr -10h 
tm mday = dword ptr -OCh 
tm mon - dword ptr -8 

tm year = dword ptr -4 
push ebp 

mov ebp, esp 

and esp, OFFFFFFFOh 


sub esp, 30h 
call _ main 
mov 
mov 
lea 
mov 


eax, [esp*30h«tm sec] 

[esp*30h-var 2C], eax 
lea eax, [esp*30h-«unix time] 
mov [esp-30h-var 30], eax 
call localtime r 
mov eax, [esp-*30h-«tm year] 
add eax, 1900 
mov [esp-*-30h-var 2C], eax 
mov [esp-*-30h-var 30], offset 
call printf 
mov eax, [esp-*30h-«tm mon] 
mov [esp-30h-var 2C], eax 
mov [esp-30h-var 30], offset 
call printf 
mov eax, [esp+30h+tm_mday | 
mov [esp+30h+var_2C], eax 
mov [espt+30h+var_30], offset 
call printf 
mov eax, [esp+30h+tm_hour ] 
mov [esp+30h+var_2C], eax 
mov [esp+30h+var_30], offset 
call printf 
mov eax, [esp+30h+tm_min] 
mov [esp+30h+var_2C], eax 
mov [esp+30h+var_30], offset 
call printf 
mov eax, [esp+30h+tm_sec ] 
mov [esp+30h+var_2C], eax 
mov [esp+30h+var_30], offset 
call printf 
leave 
retn 

main endp 


[esp+30h+var_30], © ; arg 0 
[esp+30h+unix_time], eax 


aYearD ; "Year: %d" 
aMonthD ; "Month: %d" 
aDayD ; "Day: %d" 
aHourD ; "Hour: %d" 


aMinutesD ; "Minutes: %d" 


aSecondsD ; "Seconds: %d" 


这 个 代码 和 我 们 之 前 看 到 的 一 样 ， 依 然 无 法 分 辨 出 源 代码 是 用 了 结构 体 还 是 只 是 数 
组 而 已 。 


当然 这 样 也 是 可 以 运行 的 ， 但 是 实际 操作 中 还 是 不 建议 用 这 种 上 涩 的 方法 。 因 为 通 
常 ， 编 译 器 会 在 栈 上 按照 声明 顺序 分 配 变 量 空间 ， 但 是 并 不 能 保证 每 次 都 是 这 样 。 


还 有 ， 其 他 编译 器 可 能 会 警告 tm_year,tm_mon, tm mday, tm hour, tm_min 变 量 而 
不 是 tm_sec 使 用 时 未 初始 化 。 事 实 上 ， 计 算 机 并 不 知道 调用 |localtime_r() 的 时 候 他 
们 会 被 自动 填充 上 。 

我 选择 了 这 个 例子 来 解释 是 因为 他 们 都 是 int 类 型 的 ， 而 SYSTEMTIME 的 所 有 成 员 
是 16 位 的 WORD“， 如 果 把 它们 作为 本 地 变量 来 声明 的 话 ， 他 们 会 按照 32 位 的 边界 值 
来 对 齐 ， 因 此 什么 都 用 不 了 了 (因为 由 于 数据 对 齐 ， 此 时 GetSystemTime() 会 把 它 
们 错误 的 填充 起 来 ) 。 请 继续 读 下 一 节 的 内 容 : “结构 体 的 成 员 封 装 ”。 

所 以 ， 结 构 体 只 是 把 一 组 变量 封装 到 一 个 位 置 上 ， 数 据 是 一 个 接 一 个 的 。 我 可 以 说 
结构 体 是 一 个 语法 糖 ， 因 为 它 只 是 用 来 让 编译 器 把 一 组 变量 保存 在 一 个 地 方 。 但 
是 ， 我 不 是 编程 方面 的 专家 ， 所 以 更 有 可 能 的 是 ， 我 可 能 会 误 读 这 个 术语 。 还 有 ， 
在 早期 (1972 年 以 前 ) 的 时 候 ，C 是 不 支持 结构 体 的 。 


21.3.2 ARM 


ARM+ 优 化 Keil+thumb 模 式 


同样 的 例子 : 清单 21.10 : 优化 Keil+thumb 模 式 


var 38 = -0x38 
var 34 = -0x34 
var 30 = -0x30 
var 2C = -Ox2C 
var 28 - -0x28 
var 24 = -0x24 
timer = -OxC 
PUSH {LR} 


MOVS RO, #0 ; timer 

SUB SP, SP, 40x34 

BL time 

STR RO, [SP,#0x38+timer] 

MOV R1, SP ; tp 

ADD RO, SP, #0x38+timer ; timer 
BL localtime r 

LDR R1, -0x76C 

LDR RO, [SP,#0x38+var_24] 

ADDS Ri, RO, R1 

ADR RO, aYearD ; "Year: %d" 

BL — 2printf 

LDR R1, [SP,#0x38+var_28 ] 

ADR RO, aMonthD ; "Month: %d" 
BL _ 2printf 

LDR R1, [SP,#0x38+var_2C] 

ADR RO, aDayD ; "Day: %d" 

BL — 2printf 

LDR R1, [SP,#0x38+var_30 ] 

ADR RO, aHourD ; "Hour: %d" 

BL _ 2printf 

LDR R1, [SP,#0x38+var_34] 

ADR RO, aMinutesD ; "Minutes: %d" 
BL — 2printf 

LDR R1, [SP,Z0x38-*var. 38] 

ADR RO, aSecondsD ; "Seconds: 96d" 
BL — 2printf 

ADD SP, SP, 40x34 

POP {PC} 


ARM+ 优 化 Xcode (LLVM) +thumb-2 模 式 


IDA“ 碰 巧 知道 "tm 结 构 体 〈 因 为 IDA"“ 知 道 " 例 如 localtime_r() 这 些 库 函 数 的 参数 类 
型 ) ， 所 以 他 把 这 里 的 结构 变量 的 名 字 也 显示 出 来 了 。 


var 38 = -0x38 
var 34 = -0x34 
PUSH {R7,LR} 
MOV R7, SP 
SUB SP, SP, #0x30 
MOVS RO, ZO ; time t * 
BLX time 


ADD 
STR 
MOV 
BLX 
LDR 
MOV 
ADD 


R1, SP, 40x38-*var 34 ; 
RO, [SP,40x38-var. 38] 
RO, SP ; time t * 
 localtime r 

R1, 
RO, OxF44 ; "Year: 
RO, PC ; char * 


%d" 


ADDW R1, R1, #0x76C 


BLX 
LDR 
MOV 
ADD 
BLX 
LDR 
MOV 
ADD 
BLX 
LDR 
MOV 
ADD 
BLX 
LDR 
MOV 
ADD 
BLX 
LDR 
MOV 
ADD 
BLX 
ADD 
POP 
00000000 
00000000 
00000004 
00000008 
0000000C 
00000010 
00000014 
00000018 
0000001C 
00000020 
00000024 
00000028 
0000002C 


_printf 
R1, 
RO, OxF3A ; "Month: 
RO, PC ; char * 
_printf 

R1, 
RO, OxF35 ; "Day: %d" 
RO, PC ; char * 
_printf 

R1, 
RO, OXxF2E ; "Hour: 
RO, PC ; char * 
_printf 

R1, 
RO, OxF28 ; "Minutes: 
RO, PC ; char * 
_printf 

R1, [SP,#0x38+var_34] 
RO, OxF25 ; "Seconds: 
RO, PC ; char * 
_printf 

SP, SP, #0x30 

{R7, PC} 


%d" 


%d" 


tm struc ; (sizeof=0x2 
tm_sec DCD ? 

tm_min DCD ? 

tm_hour DCD ? 

tm_mday DCD ? 

tm_mon DCD ? 

tm_year DCD ? 

tm_wday DCD ? 

tm_yday DCD ? 

tm_isdst DCD ? 
tm_gmtoff DCD ? 
tm_zone DCD ? 
tm ends 


offset 


, 


[SP,40x38-*var 34.tm 


[SP, #0x38+var_34.tm_ 


[SP, #0x38+var_34.tm_ 


[SP, #0x38+var_34.tm_ 


[SP, #0x38+var_34.tm_ 
%d"' 


struct tm * 


year] 


mon] 


mday] 


hour] 


min] 


%d" 


C, standard type) 


清单 21.11 : ARM+ 优 化 Xcode (LLVM) +thumb-2 模 式 


21.3.3 MIPS 


21.3.4 将 结构 体 作 为 一 组 值 

21.3.5 讲 结构 体 作 为 一 个 32 位 的 数组 

21.3.6 讲 结 构 体 作为 bit 的 数组 

21.4 结构 体 的 成 员 封 装 

结构 体 做 的 一 个 重要 的 事情 就 是 封装 了 成 员 ， 让 我 们 看 看 简单 的 例子 : 


Zinclude «stdio.h» 


struct s 

{ 
char a; 
int b; 
char c; 
int d; 


/ 
void f(struct s s) 


printf ("a=%d; b=%d; c=%d; d=%d", s.a, s.b, s.c, s.d); 
如 我 们 所 看 到 的 ， 我 们 有 2 个 char 成 员 (每 个 1 字 节 ) ， 和 两 个 int 类 型 的 数据 (每 个 
4 字 节 ) 。 


X86 


编译 后 得 到 : 


_s$ = 8 ; size = 16 
?F@@YAXUS@@@Z PROC ; f 
push ebp 
mov ebp, esp 
mov eax, DWORD PTR _s$[ebp+12] 
push eax 
movsx ecx, BYTE PTR _s$[ebp+s8 ] 
push ecx 
mov edx, DWORD PTR _s$[ebp+4] 
push edx 
movsx eax, BYTE PTR _s$[ebp] 
push eax 
push OFFSET $SG3842 
call _printf 
add esp, 20 ; 00000014H 
pop ebp 
ret 0 
?fQQYAXUSQQQZ ENDP ; f 
_TEXT ENDS 


如 我 们 所 见 ， 每 个 成 员 的 地 址 都 按 4 字 节 对 齐 了 ， 这 也 就 是 为 什么 char 也 会 像 int 一 
样 占 用 4 字 节 。 为 什么 ? 因为 对 齐 后 对 CPU 来 说 更 容易 读 取 数据 。 


但 是 ， 这 么 看 明显 浪费 了 一 些 空间 。 让 我 们 能 用 /Zp1 (/Zp[n] 代 表 结构 体 边 界 值 为 n 
字 节 ) 来 编译 它 : 
清单 18.12: MSVC /Zp1 


_TEXT SEGMENT 
_s$ = 8 ; size = 10 
?F@@YAXUS@@@Z PROC ; f 
push ebp 
mov ebp, esp 
mov eax, DWORD PTR _s$[ebp+6] 
push eax 
movsx ecx, BYTE PTR _s$[ebp+5] 
push ecx 
mov edx, DWORD PTR _s$[ebp+1] 
push edx 
movsx eax, BYTE PTR _s$[ebp] 
push eax 
push OFFSET $SG3842 
call _printf 
add esp, 20 ; 00000014H 
pop ebp 
ret 0 
?F@@YAXUS@@@Z ENDP ; f 


现在 ， 结 构 体 只 用 了 10 字 节 ， 而 且 每 个 char 都 占用 1 字 节 。 我 们 得 到 了 最 小 的 空 
闻 ， 但 是 反 过 来 看 ，CPU 却 无 法 用 最 优化 的 方式 存 取 这 些 数据 。 可 以 容易 猜 到 的 
是 ， 如 果 这 个 结构 体 在 很 多 源 代 码 和 对 象 中 被 使 用 的 话 ， 他 们 都 需要 用 同一 种 方式 
来 编译 起 来 。 除 了 MSVC /Zp 选项 ， 还 有 一 个 是 #pragma pack 编 译 器 选项 可 以 在 源 
码 中 定义 边界 值 。 这 个 语句 在 MSVC 和 GCC 中 均 被 支持 。 回 到 SYSTEMTIME 结 构 
体 中 的 16 位 成 员 ， 我 们 的 编译 器 怎么 才能 把 它们 按 1 字 节 边 界 来 打包 ? WinNT.h 有 
ik A MNA : 
清单 18.13:WINNT.H 
#include "pshpacki.h" 
和 这 个 : 
清单 18.14:WINNTH 
#include "pshpack4.h" // 4 byte packing is the default 
文件 PshPack1.h 看 起 来 像 
清单 18.15: PSHPACK1.H 
#if ! (defined(lint) || defined(RC INVOKED)) 
#if (  MSC VER >= 800 && !defined( M I86)) || defined(  PUSHPOP S 
UPPORTED ) 
#pragma warning(disable:4103) 
#if !(defined( MIDL PASS )) || defined( _ midl ) 
Zpragma pack(push,1) 
#else 
#pragma pack(1) 
#endif 
#else 
#pragma pack(1) 


#endif 
Zendif /* ! (defined(lint) || defined(RC_INVOKED)) */ 


这 就 是 #pragma pack 处 理 结构 体 大 小 的 方法 。 

OllyDbg + fields are packed by default 
OllyDbg + fields aligning on 1 byte boundary 
21.4.2 ARM 


ARM+ 优 化 Keil+thumb 模 式 


清单 18.16 


.text:0000003bE exit ; CODE XREF: f+16 
.text:0000003bE 05 BO ADD SP, SP, #0x14 
.text:00000040 00 BD POP (PC) 


.text:00000280 f 
. text : 00000280 
.text:00000280 var 18 = -0x18 


.text:00000280 a = -0x14 
.text:00000280 b - -0x10 
.text:00000280 c = -OxC 
.text:00000280 d - -8 


. text : 00000280 

.text:00000280 OF B5 PUSH {RO-R3, LR} 

.text:00000282 81 BO SUB SP, SP, #4 

.text:00000284 04 98 LDR RO, [SP,#16] ; d 

.text:00000286 02 9A LDR R2, [SP,#8] ; b 

.text:00000288 00 90 STR RO, [SP] 

.text:0000028A 68 46 MOV RO, SP 

.text:0000028C 03 7B LDRB R3, [RO,#12] ; c 

.text:0000028E 01 79 LDRB R1, [RO,#4] ; a 

.text:00000290 59 AO ADR RO, aADBDCDDD ; "a=%d; b-Xd; c=%d; d=%d 


.text:00000292 05 FO AD FF BL  2printf 
.text:00000296 D2 E6 B exit 


我 们 可 以 回忆 到 的 是 ， 这 里 它 直接 用 了 结构 体 而 不 是 指向 结构 体 的 指针 ， 而 且 因 为 
ARM 里 函数 的 前 4 个 参数 是 通过 寄存 器 传递 的 ， 所 以 结构 体 其 实 是 通过 R0-R3 寄 存 
器 传递 的 。 


LDRB 指 令 将 内 存 中 的 一 个 字 节 载 入 ， 然 后 把 它 扩展 到 32 位 ， 同 时 也 考虑 它 的 符 
号 。 这 和 Xx86 架 构 的 MOVSX (参考 13.1.1 节 ) 基本 一 样 。 这 里 它 被 用 来 传递 结构 体 
的 a、C 两 个 成 员 。 


还 有 一 个 我 们 可 以 容易 指出 来 的 是 ， 在 函数 的 末尾 处 ， 这 里 它 没有 使 用 正常 的 函数 
尾 该 有 的 指令 ， 而 是 直接 跳 转 到 了 另 一 个 函数 的 末尾 1! 的 确 ， 这 是 一 个 相当 不 同 的 
函数 ， 而 且 跟 我 们 的 函数 没有 任何 关联 。 但 是 ， 他 却 有 着 相同 的 函数 结尾 (也 许 是 
因为 他 也 有 5 个 本 地 变量 (5x4 = 0x14) ) 。 而 且 他 就 在 我 们 的 函数 附近 (看 看 地 
址 就 知道 了 ) 。 事 实 上 ， 函 数 结尾 并 不 重要 ， 只 要 函数 好 好 执行 就 行 了 嘛 。 显 然 ， 
Keil x Xe xx JE A+ ERA —384- * IRI SLE 7J 1 LACAN X] o HM S ACIE E, 
需要 4 字 节 ， 而 跳 转 指令 只 要 2 个 字 节 。 


ARM+ 优 化 XCode (LLVM) +thumb-2 模 式 


清单 18.17: 优化 的 Xcode (LLVM) +thumb-2 模 式 


var C = -0XC 
PUSH {R7,LR} 
MOV R7, SP 
SUB SP, SP, #4 
MOV R9, R1; b 
MOV R1, RO; a 
MOVW RO, ZOXF10 ; "a=%d; b=%d; c=%d; d=%d 


SXTB R1, R1 ; prepare a 
MOVT.W RO, £0 

STR R3, [SP,40xC-var C] ; place d to stack for printf() 
ADD RO, PC ; format-string 

SXTB R3, R2 ; prepare c 

MOV R2, R9 ; b 

BLX . printf 

ADD SP, SP, £4 

POP {R7,PC} 


SXTB (Singned Extend Byte， 有 符号 扩展 字 节 ) 和 x86 的 MOVSX 〈 见 13.1.1 节 ) 
差不多 ， 但 是 它 不 是 对 内 存 操作 的 ， 而 是 对 一 个 寄存 器 操作 的 ， 至 于 剩余 的 一 一 都 
一 样 。 


21.4.3 MIPS 
21.5 KEW 
如 果 一 个 结构 体 里 定义 了 另 一 个 结构 体会 怎么 样 ? 


Zinclude «stdio.h» 
struct inner struct 


{ 
int a; 
int b; 
J; 
struct outer_struct 
{ 
char a; 
int b; 
struct inner struct c; 
char d; 
int e; 
J; 
void f(struct outer_struct s) 
{ 


printf ("a=%d; b=%d; c.a=%d; c.b=%d; d=%d; e=%d", s.a, s.b, 
srera oven Sad es roy 


Hh 


在 这 个 例子 里 ， 我 们 把 inner_struct 放 到 了 outer_struct 的 abde 中 间 。 让 我 们 在 
MSVC 2010 中 编译 : 


清单 18.18 : MSVC 2010 


_s$ 28 ; size = 24 
_f PROC 
push ebp 
mov ebp, esp 
mov eax, DWORD PTR _s$[ebp+20] ; e 


push eax 

movsx ecx, BYTE PTR _s$[ebp+16] ; d 
push ecx 

mov edx, DWORD PTR _s$[ebpt+i2] ; c.b 
push edx 

mov eax, DWORD PTR _s$[ebp+8] ; c.a 
push eax 

mov ecx, DWORD PTR _s$[ebp+4] ; b 
push ecx 

movsx edx, BYTE PTR _s$[ebp] ;a 
push edx 


push OFFSET $SG2466 
call _printf 
add esp, 28 ; 0000001cH 
pop ebp 
ret 0 

f ENDP 


一 个 令 我 们 好 奇 的 事情 是 ， 看 看 这 个 反 汇 编 代 码 ， 我 们 甚至 不 知道 它 的 体内 有 另 一 
个 结构 体 | 因此 ， 我 们 可 以 说 ， 歼 套 的 结构 体 ， 了 最终 都 会 转化 为 线性 的 或 者 一 维 的 
结构 。 当然 ， 如 果 我 们 把 struct inner. struct c; 换 成 struct inner struct *c (因此 这 里 
其 实 是 定义 个 了 一 个 指针 ) ， 这 个 情况 下 状况 则 会 大 为 不 同 。 


21.5.1 OllyDbg 


21.6 结构 体 中 的 位 


21.6.1 CPUID 的 例子 


C/C++ 中 允许 给 结构 体 的 每 一 个 成 员 都 定义 一 个 准确 的 位 域 。 如 果 我 们 想 要 节省 空 
间 的 话 ， 这 个 对 我 们 来 说 将 是 非常 有 用 的 。 比 如 ， 对 BOOL 来 说 ，1 位 就 足 作 了。 但 
是 当然 ， 如 果 我 们 想 要 速度 的 话 ， 必 然 会 浪费 点 空间 。 让 我 们 以 CPUID 指 令 为 例 ， 
这 个 指令 返回 当前 CPU 的 信息 和 特性 。 如 果 EAX 在 指令 执行 之 前 就 设置 为 了 1， 
CPUID 将 会 返回 这 些 内 容 到 EAX 中 。 


Stepping 
Model 
Family 


Processor Type 
Extended Model 
Extended Family 





MSVC 2010 有 CPUID 的 宏 ， 但 是 GCC 4.4.1 没 有 ， 所 以 ， 我 们 就 手动 的 利用 它 的 内 
联 汇编 器 为 GCC 写 一 个 吧 。 


#include <stdio.h> 
#ifdef | GNUC__ 
static inline void cpuid(int code, int “a, int *b, int *c, int * 


d) { 


asm volatile("cpuid" : "-a"(*a), "=b"(*b) ， Se AGG) "=d"(*d) : Ue 


(code)); 


Zendif 


#ifdef  MSC VER 
Zinclude <intrin.h> 


Zendif 


struct CPUID 1 EAX 


i 


unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 


int main() 


int 
int 
int 
int 
int 
int 
int 
int 


stepping:4; 

model:4; 

family id:4; 
processor type:2; 
reserved1:2; 

extended model id:4; 
extended family id:8; 
reserved2:4; 


struct CPUID 1 EAX *tmp; 


int b[4]; 


#ifdef | MSC VER 


. cpuid(b,1); 


Zendif 


#ifdef ^ GNUC - 
cpuid (1, &b[0], &b[1], &b[2], &b[3]); 


Zendif 


tmp-(struct CPUID 1 EAX *)&b[0]; 

printf ("stepping=%d", tmp-»stepping); 

printf ("model=%d", tmp-»model); 

printf ("family _id=%d", tmp--family id); 

printf ("processor type-9d", tmp-»processor type); 

printf ("extended model id=%d", tmp--extended model id); 
printf ("extended family id-?d", tmp-»extended family id); 


return 0; 


m 


之 后 CPU 会 填充 EAX,EBX,ECX,EDX， 这 些 寄存 器 的 值 会 通过 b[] 数 组 显现 出 来 。 接 
着 我 们 用 一 个 指向 CPUID_1_EAX 结 构 体 的 指针 ， 把 它 指 向 b[] 数 组 的 EAX 值 。 换 名 
话说 ， 我 们 将 把 32 位 的 INT 类 型 的 值 当 作 一 个 结构 体 来 看 。 然后 我 们 就 能 从 结构 体 


中 读 取 数据 。 


MSVC 


让 我 们 在 MSVC 2008 用 /Ox 编 译 一 下 : 


清单 18.19: MSVC 2008 


_b$ = -16 ; size = 16 
_main PROC 
sub esp, 16 ; 00000010H 
push ebx 
XOr ecx, ecx 
mov eax, 1 
cpuid 
push esi 
lea esi, DWORD PTR _b$[esp+24] 
mov DWORD PTR [esi], eax 
mov DWORD PTR [esi+4], ebx 
mov DWORD PTR [esi+8], ecx 
mov DWORD PTR [esiti2], edx 
mov esi, DWORD PTR _b$[esp+24] 
mov eax, esi 
and eax, 15 ; 0000000fH 
push eax 
push OFFSET $5615435 ; ‘stepping=%d’, OaH, OOH 
call _printf 
mov ecx, esi 
shr ecx, 4 
and ecx, 15 ; 0000000fH 
push ecx 
push OFFSET $SG15436 ; ‘model=%d’, O0aH, OOH 
call _printf 
mov edx, esi 
shr edx, 8 
and edx, 15 ; 0000000fH 
push edx 
push OFFSET $SG15437 ; ‘family_id=%d’, QaH, 00H 
call _printf 
mov eax, esi 
shr eax, 12 ; 0000000cH 
and eax, 3 
push eax 
push OFFSET $5615438 ; ‘processor_type=%d’, OaH, OOH 
call _printf 
mov ecx, esi 
shr ecx, 16 ; 00000010H 
and ecx, 15 ; 0000000fH 
push ecx 
push OFFSET $SG15439 ; 'extended model id=%d’, OaH, OOH 
call _printf 
shr esi, 20 ; 00000014H 
and esi, 255 ; 000000ffH 
push esi 
push OFFSET $SG15440 ; 'extended family id-9*d', QaH, OOH 
call _printf 
add esp, 48 ; 00000030H 
pop esi 


xor eax, eax 
pop ebx 
add esp, 16 ; 00000010H 
ret O 

_main ENDP 


SHR 指 令 将 EAX 寄存 器 的 值 右 移 位 ， 移 出 去 的 值 必 须 被 忽略 ， 例 如 我 们 会 忽略 右边 
的 位 。AND 指 令 将 清除 去 边 不 需要 的 位 ， 换 名 话说 ， 它 处 理 过 后 EAX 将 只 留 下 我 们 
需要 的 值 9 


MSVC + OllyDbg 


GCC 


让 我 们 在 GCC4.4.1 下 用 -O3 编 译 。 
清单 18.20: GCC 4.4.1 


main proc near ; DATA XREF: _start+17 
push ebp 
mov ebp, esp 
and esp, OFFFFFFFOh 
push esi 
mov esi, 1 
push ebx 
mov eax, esi 
sub esp, 18h 
cpuid 
mov esi, eax 
and eax, OFh 
mov [esp+8], eax 
mov dword ptr [esp+4], offset aSteppingD ; "stepping=%d" 
mov dword ptr [esp], 1 
call printf chk 
mov eax, esi 
shr eax, 4 
and eax, OFh 
mov [esp+8], eax 
mov dword ptr [esp+4], offset aModelD ; "model=%d" 
mov dword ptr [esp], 1 
call printf chk 
mov eax, esi 
shr eax, 8 
and eax, OFh 
mov [esp+8], eax 
mov dword ptr [esp+4], offset aFamily idD ; "family id-?wd" 
mov dword ptr [esp], 1 
call | printf chk 
mov eax, esi 








shr eax, OCh 

and eax, 3 

mov [esp+8], eax 

mov dword ptr [esp+4], offset aProcessor type ; "processor t 
ype=%d" 

mov dword ptr [esp], 1 

call printf_chk 

mov eax, eSi 

shr eax, 10h 

shr esi, 14h 

and eax, OFh 

and esi, OFFh 

mov [esp+8], eax 

mov dword ptr [esp+4], offset aExtended model ; "extended mo 
del_id=%d" 

mov dword ptr [esp], 1 

call ___printf_chk 

mov [esp-8], esi 

mov dword ptr [esp+4], offset unk 80486D0 

mov dword ptr [esp], 1 

call _ printf chk 

add esp, 18h 

xor eax, eax 

pop ebx 

pop esi 

mov esp, ebp 

pop ebp 

retn 
main endp 





几乎 一 样 。 只 有 一 个 需要 注意 的 地 方 就 是 GCC 在 调用 每 个 printf() 之 前 会 把 
extended model idfeextended family id 的 计算 联合 到 一 块 去 ， 而 不 是 把 它们 分 开 
计算 。 


21.6.2 将 浮 点 数 当 作 结 构 体 看 待 

我 们 已 经 在 FPU (15 章 ) 中 注意 到 了 float 和 double 两 个 类 型 都 是 有 符号 的 ， 他 们 分 
为 符号 、 有 效 数 字 和 指数 部 分 。 但 是 我 们 能 直接 用 上 这 些 位 嘛 ?让 我 们 试 一 试 
float 。 


3] 30 23322 0 


s exponent mantissa or fraction 


( S—sign ) 


#include <stdio.h> 
#include <assert.h> 
#include <stdlib.h> 
#include <memory.h> 
struct float_as_struct 


{ 
unsigned int fraction : 23; // fractional part 
unsigned int exponent : 8; // exponent + OxS3FF 
unsigned int sign : 1; // sign bit 
3; 
float f(float in) 
{ 
float f- in; 
struct float as struct t; 
assert (sizeof (struct float as struct) -- sizeof (float)); 
memcpy (&t, &f, sizeof (float)); 
t.sign-1; // set negative sign 
t.exponent=t.exponent+2; // multiple d by 2^n (n here is 2) 
memcpy (&f, &t, sizeof (float)); 
return f; 
3 
int main() 
{ 
printf ("%f", f(1.234)); 
}; 


float_as_struct 结 构 占 用 了 和 float 一 样 多 的 内 存 空间 ， 也 就 是 4 字 节 ， 或 者 说 ，32 
位 。 现 在 我 们 给 输入 值 设置 一 个 负 值 ， 然 后 指数 加 2， 这 样 我 们 就 能 把 整个 数 按照 
22 的 值 来 倍 乘 ， 也 就 是 乘 以 4。 让 我 们 在 MSVC2008 无 优化 模式 下 编译 它 。 


清单 18.21: MSVC 2008 


_t$ = -8 ; size 
f$ = -4 ; size 


in$ = 


4 
8 ; size = 4 


?fQQYAMMQZ PROC ; f 
push ebp 


mov 
sub 
fld 


ebp, esp 
esp, 8 
DWORD PTR __in$[ebp] 


fstp DWORD PTR _f$[ebp] 
push 4 


lea 


eax, DWORD PTR _f$[ebp] 


push eax 


lea 


ecx, DWORD PTR _t$[ebp] 


push ecx 
call _memcpy 


add 
mov 


esp, 12 ; 0000000cH 
edx, DWORD PTR _t$[ebp] 


or edx, -2147483648 ; 80000000H - set minus sign 


eax, 23 ; 00000017H - shift result to place of bits 30:2 


mov DWORD PTR t$[ebp], edx 
mov eax, DWORD PTR _t$[ebp] 
shr eax, 23 ; 00000017H - drop significand 
and eax, 255 ; 000000ffH - leave here only exponent 
add eax, 2 ; add 2 to it 
and eax, 255 ; 000000ffH 
shl 
3 
mov ecx, DWORD PTR _t$[ebp] 
and ecx, -2139095041 ; 807fffffH - drop exponent 
or ecx, 


alculated exponent 


mov DWORD PTR _t$[ebp], ecx 
push 4 

lea edx, DWORD PTR _t$[ebp] 
push edx 

lea eax, DWORD PTR _f$[ebp] 
push eax 


call _memcpy 


add 
fld 
mov 
pop 
ret 


esp, 12 ; 0000000cH 
DWORD PTR . f$[ebp] 
esp, ebp 

ebp 

0 


2F@@YAMM@Z ENDP ; f 


DRIE 
用 ， 但 是 没 
TX 


75 3X 18.22 : 


如 果 用 /Ox 编 译 的 话 ， c mem 了 。f 变 量 会 被 


有 优化 的 版 本 看 起 来 会 更 容易 理解 一 点 


Gcc 4.4.1 


GCC 4.4.1 的 -O3 选 项 


直接 使 
页 会 怎 


Bw 


eax ; add original value without exponent with new c 


A 


; f(float) 
public _Z1ff 
_Z1ff proc near 
var 4 - dword ptr -4 
arg O = dword ptr 8 
push ebp 
mov ebp, esp 
sub esp, 4 
mov eax, [ebp+arg 0] 
or eax, 80000000h ; set minus sign 
mov edx, eax 
and eax, 807FFFFFh ; leave only significand and exponent in 
EAX 
shr edx, 23 ; prepare exponent 
add edx, 2 ; add 2 
movzx edx, dl ; clear all bits except 7:0 in EAX 
shl edx, 23 ; shift new calculated exponent to its place 
or eax, edx ; add new exponent and original value without ex 
ponent 
mov [ebp-*var 4], eax 
fld [ebp+var_ 4] 
leave 
retn 
_Z1ff endp 
public main 
main proc near 
push ebp 
mov ebp, esp 
and esp, OFFFFFFFOh 
sub esp, 10h 
fld ds:dword 8048614 ; -4.936 
fstp qword ptr [esp+8] 
mov dword ptr [espt+4], offset asc 8048610 ; "%f 


mov dword ptr [esp], 1 
call _ printf chk 
xor eax, eax 
leave 
retn 
main endp 


f() 函 数 基本 可 以 理解 ， 但 是 有 趣 的 是 ，GCC 可 以 在 编译 阶段 就 通过 我 们 这 堆 大 杂烩 
一 样 的 代码 计算 出 fl1.234) 的 值 ， 从 而 会 把 他 当 作 参 数 直接 给 printf() 。 


21.7 练习 


结构 体 


269 


22.1 伪 随 机 数 生成 器 的 例子 


如 果 我 们 需要 0 一 1 的 随机 浮 点 数 ， 最 简单 的 方法 就 是 用 PRNG ( 伪 随 机 数 发 生 
器 ) ， 比 如 马 特 赛 特 旋转 演算 法 可 以 生成 一 个 随机 的 32 位 的 DWORD。 然 后 我 们 可 
以 把 这 个 值 转 为 FLOAT 类 型 ， 然 后 除 以 RAND_MAX (我 们 的 例子 是 
OxFFFFFFFF) ， 这 样 ， 我 们 得 到 的 将 是 0..1 区 间 的 数 。 但 是 如 我 们 所 知道 的 是 ， 
除法 很 慢 。 我 们 是 否 能 摆脱 它 呢 ? 就 像 我 们 用 乘法 做 除法 一 样 (14 章 ) 。 让 我 们 想 
想 浮 点 数 由 什么 构成 : 符号 位 、 有 效 数字 位 、 指 数位 。 我 们 只 需要 在 这 里 面 存储 一 
些 随机 的 位 就 好 了 。 指数 不 能 变 成 0 (在 本 例 里 面 数字 会 不 正常 ) ， 所 以 我 们 存储 
0111111 到 指数 里 面 ， 这 意味 着 指数 位 将 是 1。 然 后 ， 我 们 用 随机 位 填充 有 效 数 字 
位 ， 然 后 把 符号 位 设置 为 0 ( 正 数 ) 。 生 成 的 数字 将 在 1-2 的 间隔 中 生成 ， 所 以 我 们 
必须 从 里 面 再 减 去 1。 我 例子 里 面 是 最 简单 的 线性 同 余 随机 数 生 成 器 ， 生 成 32 位 
(译注 : 32-bit 比 特 位 ， 非 数字 位 ) 的 数字 。PRNG 将 会 用 UNIX 时 间 改 来 初始 化 。 
然后 ， 我 们 会 把 float 类 型 当 作 联合 体 (union) 来 处 理 ， 这 是 一 个 C/C++ 的 结构 。 它 
允许 我 们 把 一 片 内 存 里 面 各 种 不 同类 型 的 数据 联合 履 盖 到 一 起 用 。 在 我 们 的 例子 
里 ， 我 们 可 以 创建 一 个 union， 然 后 通过 float 或 者 uint32 t 来 访问 它 。 因 此 ， 这 只 是 
一 个 小 技巧 ， 而 且 是 很 脏 的 技巧 。 


#include <stdio.h> 
#include <stdint.h> 
#include <time.h> 
union uint32_t_float 
{ . . 
uint32 t 1i; 
float f; 
J; 
// from the Numerical Recipes book 
const uint32_t RNG_a=1664525; 
const uint32_t RNG_c=1013904223; 
int main() 
{ 
uint32_t_float tmp; 
uint32 t RNG state-time(NULL); // initial seed 
for (int i-0; i<100; i++) 
if 
RNG_state=RNG_state*RNG_a+RNG_c; 
tmp.i-RNG state & 0x007fffff | Ox3F800000; 
float x=tmp.f-1; 
printf ("%f", x); 
J; 
return 0; 


) 


22.1.1 x86 


清单 19.1: MSVC 2010 (/Ox) 


$SG4232 DB '9f', OaH, OOH 
. realQ3ff0000000000000 DQ O3ffO0000000000000r ; 1 
tvi40= -4 ; size = 4 
_tmp$= -4 ; size = 4 
_main PROC 
push ebp 
mov ebp, esp 
and esp, -64 ; ffffffcOH 
sub esp, 56 ; 00000038H 
push esi 
push edi 
push 0 
call __time64 
add esp, 4 
mov esi, eax 
mov edi, 100 ; 00000064H 
$LN3@main: 
; let’s generate random 32-bit number 
imul esi, 1664525 ; 0019660dH 
add esi, 1013904223 ; 3c6ef35fH 
mov eax, esi 
; leave bits for significand only 
and eax, 8388607 ; 007fffffH 
; set exponent to 1 
or eax, 1065353216 ; 3f800000H 
; Store this value as int 
mov DWORD PTR _tmp$[esp+64], eax 
sub esp, 8 
; load this value as float 
fld DWORD PTR _tmp$[esp+72] 
; subtract one from it 
fsub QWORD PTR __real@3ff0000000000000 
fstp DWORD PTR tvi40[espt+72] 
fld DWORD PTR tvi40[esp+72] 
fstp QWORD PTR [esp] 
push OFFSET $SG4232 
call _printf 
add esp, 12 ; 0000000cH 
dec edi 
jne SHORT $LN3@main 
pop edi 
xor eax, eax 
pop esi 
mov esp, ebp 
pop ebp 
ret 0 
_main ENDP 
_TEXT ENDS 
END 


GCC 也 生成 了 非常 相似 的 代码 。 


22.1.2 MIPS 

22.1.3 ARM (ARM mode) 
22.2 计 算 器 的 精度 
22.2.1 x86 

22.2.2 ARM64 

22.2.3 MIPS 


22.2.4 Conclusion 


22.3 快速 开 方 计算 


和 


We, 米 已 
指向 函数 的 指针 
区 数 指针 是 指向 函数 的 指针 ， 和 其 他 指针 一 样 ， 只 是 该 指针 指向 函数 代码 段 的 开始 
地 址 。 函 数 指针 经 常用 作 回 调 1。 
典型 的 例子 如 下 : 
C 标 准 库 的 qsort()2, aexit()3; 
*NIX 0S 的 信号 机 制 ; 
线程 启动 : CreateThread()(Win32)，pthread_create()(POSIX) : 
其 他 更 多 的 Win32 函 数 ， 比 如 EnumChildwindows()5。 


qsort() 函 数 是 C/C++ 标 准 库 快速 排序 函数 。 该 函数 能 够 排序 任意 类 型 的 数据 。qsort 
( ) 调 用 比较 函数 。 


比较 函数 被 定义 为 如 下 形式 : 
int (*compare)(const void *, const void *) 


我 们 稍 作 修改 : 


/* ex3 Sorting ints with qsort */ 
#include <stdio.h> 
#include <stdlib.h> 


int comp(const void * 


{ 


_a, const void * _b) 
const int *a=(const int *) a; 
const int *b=(const int *) b; 


if (*a--*b) 
return 0; 
else 
Dacos tb) 
return -1; 
else 
return 1; 


} 
int main(int argc, char* argv[]) 


{ 

int numbers[10]={1892, 45, 200, -98, 4087,5, -12345, 1087,88, -1000 
00}; 

IME P. 

/* Sort the array */ 

qsort(numbers,10,sizeof(int),comp) ; 

for (i=0;i<9;i++) 

printf("Number = %d",numbers[ i ]) ; 
return 0; 


23.1 MSVC 


MSVC2010 /Ox 选 项 编译 : 
Listing 20.1: Optimizing MSVC 2010: /Ox /GS- /MD 


..a$-8 “Size s 4 
. b$ = 12 ; size = 4 
_comp PROC 
mov eax, DWORD PTR __a$[esp-4] 
mov ecx, DWORD PTR __b$[esp-4] 
mov eax, DWORD PTR [eax] 
mov ecx, DWORD PTR [ecx] 
cmp eax, ecx 
jne SHORT $LN4@comp 
xor eax, eax 
ret 0 
$LN4@comp: 
xor edx, edx 
cmp eax, ecx 
setge dl 
lea eax, DWORD PTR [edx-*edx-1] 
ret 0 
_comp ENDP 
_numbers$ = -40 ; size = 40 
_argc$ = 8 ; size = 4 
_argv$ = 12 ; size = 4 
_main PROC 
sub esp, 40 ; 00000028H 
push esi 
push OFFSET comp 
push 4 
lea eax, DWORD PTR _numbers$[esp+52] 
push 10 ; 0000000aH 
push eax 
mov DWORD PTR _numbers$[esp+60], 1892 ; 00000764H 
mov DWORD PTR _numbers$[esp+64], 45 ; 0000002dH 
mov DWORD PTR _numbers$[esp+68], 200 ; 000000c8H 
mov DWORD PTR _numbers$[esp+72], -98 ; ffffff9eH 
mov DWORD PTR _numbers$[esp+76], 4087 ; 00000ff7H 
mov DWORD PTR _numbers$[esp+80], 5 
mov DWORD PTR _numbers$[esp+84], -12345 ; ffffcfc7H 
mov DWORD PTR _numbers$[esp+88], 1087 ; 0000043fH 
mov DWORD PTR _numbers$[esp+92], 88 ; 00000058H 
mov DWORD PTR _numbers$[esp+96], -100000 ; fffe7960H 
call _qsort 
add esp, 16 ; 00000010H 


第 四 个 参数 传递 了 一 个 地 址 标签 comp: 481) T comp() à © 


我 们 来 看 MSVCR80.DLL (包含 C 标 准 库 元 数 的 MSVC DLL 模块 ) E% A8 P3 
调用 : 


Listing 20.2: MSVCR80.DLL 


.text:7816CBFO ; void | cdecl qsort(void *, unsigned int, unsign 
ed int, int ( cdecl *)(const void *, const void *)) 

. text: 7816CBFO public _qsort 

.text:7816CBFO _qsort proc near 

. text: 7816CBFO 
.text:7816CBFO lo 
.text:7816CBFO hi 
.text:7816CBFO var FC 
.text:7816CBFO stkptr 
.text:7816CBFO lostk 
.text:7816CBFO histk 
.text:7816CBFO base 
.text:7816CBFO num 
.text:7816CBFO width 
.text:7816CBFO comp 

. text: 7816CBFO 


dword ptr -104h 
dword ptr -100h 
dword ptr -OFCh 
dword ptr -0F8h 
dword ptr -OF4h 
dword ptr -7Ch 
dword ptr 4 
dword ptr 8 
dword ptr OCh 
dword ptr 10h 


.text:7816CBFO sub esp, 100h 

.text:7816CCEO loc 7816CCEO0: ; CODE XREF: | qsort- 
B1 

.text:7816CCEO shr eax, 1 
.text:7816CCE2 imul eax, ebp 
.text:7816CCE5 add eax, ebx 
.text:7816CCE7 mov edi, eax 
.text:7816CCE9 push edi 

.text:7816CCEA push ebx 

.text:7816CCEB call [esp+118h+comp | 
.text:7816CCF2 add esp, 8 
.text:7816CCF5 test eax, eax 

.text :7816CCF7 jle short loc 7816CD04 


第 四 个 参数 comp 传 递 函 数 指针 ，comp() 有 两 个 参数 ， 参 数 被 检测 后 才 执 行 。 


这 种 使 用 函数 指针 的 方式 有 一 定 的 风险 。 第 HON 因 是 如 果 你 用 qsort() 调 用 了 错误 
的 函数 指针 ， 可 能 造成 程序 崩 演 ， 并 且 这 个 错误 很 难 被 发 现 。 


第 二 个 原因 是 即使 回调 函数 类 型 完全 正确 ， 使 用 错误 的 参数 调用 函数 可 能 会 导致 更 
严重 的 问题 。 进 程 前 溃 不 是 最 大 的 问题 ， 最 大 的 问题 是 前 溃 的 原因 一 编译 器 很 难 发 
现 这 种 潜在 的 问题 。 


23.1.1 MSVC + OllyDbg 


我 们 在 OD 中 加 载 我 们 的 例子 ， 并 在 comp() 函 数 下 断 点 


我 们 可 以 看 到 第 一 次 comp() 调 用 时 是 如 何 比 较 的 : M A 1.0D 代 码 窗 口 显 示 了 比较 
的 值 。 我 们 还 可 以 看 到 SP 指向 的 RA 地 址 在 qsort() 函 数 空 间 里 〈 实 际 上 位 于 
MSVCR100.DLL) 。 


42F 8 BF!) & 23% | FI qsort() HA : fig20.2. 这 里 比较 函数 被 调用 。 


第 二 次 调用 comp() 一 当前 比较 的 值 不 相同 : fig203 » 


CPU - main thread, module 17 1 


17_1.00283388 


CPU - main thread, module MSVCR100 


6041FB78 

6F854B20 MSUCR100. 6FOS4B20 
co E 0028 32bit O(FFFFFFFF) 
P1 0023 32bit OLFFFFFFFF) 
A1 SS 0028 32bit O(FFFFFFFF) 
e 9 Ds 8028 32bit e(FFFFFFFF). 


00283008 
8828381 


CPU - main thread, module 17 1 


DX O0000000 
EBX O041FBS4 
ESP 8641FR38 
EBP O041FESÓ 
ESI 6041FB94 
EDI 0041F670 
EIP 6028100C 17 1.0028100C 


C 0 ES O02B S2bit O(FFFFFFFF) 
P1 CS 0023 S2bit O(FFFFFFFF) 
R6 SS 96286 S2bit O(FFFFFFFF) 
Z 1 OS 0028 32bit O(FFFFFFFF) 





Figure 20.3: OllyDbg: second call of comp() 


23.1.2 MSVC + tracer 


我 们 来 看 成 对 比较 ， 来 对 10 个 数字 进行 排序 : 1892, 45, 200, -98, 4087, 5, -12345, 
1087, 88,-100000. 


我 们 找到 comp() 函 数 中 的 CMP 指 令 地 址 ， 并 在 其 地 址 0x0040100C 上 设置 断 点 。 


tracer.exe -1:17 1.exe bpx-17 1.exe!0x0040100C 


断 点 中 断 是 的 寄存 器 地 址 : 


278 


PID-4336|New process 17 1.exe 
(0) 17 1.exe!0x40100c 
EAX-0x00000764 EBX-0x0051f7c8 
ESI-0x0051f7d8 EDI-Ox0051f7b4 
EIP-0x0028100c 

FLAGS-IF 

(0) 17 1.exe!0x40100c 
EAX-0x00000005 EBX=0x0051f7c8 
ESI-0x0051f7d8 EDI-Ox0051f7b4 
EIP-0x0028100c 

FLAGS-PF ZF IF 

(0) 17 1.exe!0x40100c 
EAX-0x00000764 EBX-0x0051f7c8 
ESI-0x0051f7d8 EDI=0x0051f7b4 
EIP-0x0028100c 

FLAGS=CF PF ZF IF 


过 滤 EAX 和 ECX 得 到 : 


ECX-0x00000005 
EBP-0x0051f794 


ECX-Oxfffe7960 
EBP-0x0051f794 


ECX-0x00000005 
EBP-0x0051f794 


EDX-0x00000000 
ESP-0x0051f67c 


EDX-0x00000000 
ESP-0x0051f67c 


EDX-0x00000000 
ESP-0x0051f67c 


EAX-0x00000764 
EAX-0x00000005 
EAX-0x00000764 
EAX=0x0000002d 
EAX=0x00000058 
EAX-0x0000043f 
EAX-Oxffffcfc?7 
EAX-0x000000c8 
EAX-Oxffffff9e 
EAX-0x00000ff7 
EAX-0x00000ff7 
EAX-Oxffffff9e 
EAX-Oxffffff9e 
EAX-Oxffffcfc?7 
EAX-0x00000005 
EAX-Oxffffff9e 
EAX-Oxffffcfc?7 
EAX-Oxffffff9e 
EAX-Oxffffcfc?7 
EAX-0x000000c8 
EAX-0x0000002d 
EAX-0x0000043f 
EAX-0x00000058 
EAX-0x00000764 
EAX-0x000000c8 
EAX=0x0000002d 
EAX-0x0000043f 
EAX=0x00000058 
EAX-0x000000c8 
EAX=0x0000002d 
EAX=0x0000043f 
EAX=0x000000c8 
EAX=0x0000002d 
EAX=0x0000002d 


ECX=0x00000005 
ECX=0xf ff e7960 
ECX-0x00000005 
ECX-0x00000005 
ECX-0x00000005 
ECX-0x00000005 
ECX-0x00000005 
ECX-0x00000005 
ECX-0x00000005 
ECX-0x00000005 
ECX-0x00000005 
ECX-0x00000005 
ECX-0x00000005 
ECX-0Oxfffe7960 
ECX-Oxffffcfc?7 
ECX-0x00000005 
ECX-0xfffe7960 
ECX-Oxffffcfc?7 
ECX-0xfffe7960 
ECX-0x090000ff 7 
ECX-0x00000ff7 
ECX-0x090000ff 7 
ECX-0x00000ff7 
ECX-0x090000ff 7 
ECX=0x00000764 
ECX=0x00000764 
ECX=0x00000764 
ECX=0x00000764 
ECX-0x00000058 
ECX-0x000000c8 
ECX-0x000000c8 
ECX=0x00000058 
ECX=0x000000c8 
ECX=0x00000058 


有 34 对 。 因 此 快速 排序 算法 对 10 个 数字 排序 需要 34 此 对 比 操作 。 


20.1.3 MSVC + tracer (code coverage) 


我 们 使 用 跟踪 特性 收集 寄存 器 的 值 并 在 IDA 中 查看 。 
跟踪 comp() 函 数 所 有 指令 : 

tracer.exe -1:17 1.exe bpf=17_1.exe!0x00401000, trace:cc 
IDA 加 载 .idc 脚 本 : fig20.4 ° 
IDA 给 出 了 函数 名 字 (PtFuncCompare) 一 IDA 认 为 该 函数 指针 被 传递 给 qsort()。 
可 以 看 到 a 和 b 指 向 数组 不 同 的 位 置 ， 并 且 相 差 4-32bit 的 字 节 数 。 


0x401010 和 0x401012 之 间 的 指令 从 没有 被 执行 : 事实 上 comp() 从 来 不 返回 0， 
为 没有 相等 的 元 素 。 


Figure 20.4: tracer and IDA. N.B.: some values are cutted at right 


23.2 GCC 


没有 太 大 的 不 同 : 
Listing 20.3: GCC 


lea eax, [esp+40h+var_28] 

mov [esp*-40h-var 40], eax 

mov [esp+40h+var_28], 764h 

mov [esp+40h+var_24], 2Dh 

mov [esp+40h+var_20], OC8h 

mov [esp+40h+var_1C], OFFFFFF9Eh 
mov [esp+40h+var_18], OFF7h 

mov [esp+40h+var_14], 5 

mov [esp-40h-var 10], OFFFFCFC7h 
mov [esp+40h+var_C], 43Fh 

mov [esp+40h+var_8], 58h 

mov [esp+40h+var_4], OFFFE7960h 
mov [esp+40h+var_34], offset comp 
mov [esp+40h+var_38], 4 

mov [esp+40h+var_3C], OAh 

call _qsort 


comp() A : 


public comp 


comp proc near 

arg 0 - dword ptr 8 

arg 4 - dword ptr OCh 
push ebp 


mov ebp, esp 
mov eax, [ebp-arg 4] 
mov ecx, [ebp+arg 0] 
mov edx, [eax] 
xor eax, eax 
cmp [ecx], edx 
jnz short loc_8048458 
pop ebp 
retn 
loc 8048458: 
setnl al 
movzx eax, al 
lea eax, [eax-eax-1] 
pop ebp 
retn 
comp endp 


qsort() 的 实现 在 libc.so 里 ， 它 实际 上 是 qsort_r() 的 封装 。 
我 们 通过 传递 函数 指针 然后 调用 快速 排序 : 
Listing 20.4: (file libc.so.6, glibc version—2.10.1) 


.text:0002DDF6 mov edx, [ebp-arg 10] 
.text:0002DDF9 mov [esp+4], esi 
.text:0002DDFD mov [esp], edi 
.text:0002DE00 mov [esp+8], edx 
.text:0002DE04 call [ebp-arg. C] 


23.2.1 GCC + GDB (with source code) 


为 我 们 有 例子 的 C 源 代码 ， 我 们 能 在 行 数 (11 一 第 一 次 比较 的 地 方 ) 设 置 断 点 (b)。 
编译 例子 的 时 候 使 用 了 带 有 调试 信息 的 选项 (-g)， 当 前 可 以 查看 地 址 及 行 号 ， 也 可 
以 打印 变量 (p): 调 试 信息 包含 寄存 器 和 变量 值 信 息 。 


我 们 查看 堆栈 (bt)， 看 到 glibc 使 用 的 中 间 有 函数 msort with. tmp()。 
Listing 20.5: GDB session 


dennisQubuntuvm:-/polygon$ gcc 17 1.c -g 
dennisQubuntuvm:-/polygon$ gdb ./a.out 

GNU gdb (GDB) 7.6.1-ubuntu 

Copyright (C) 2013 Free Software Foundation, Inc. 


License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licen 
ses/gpl.html- 

This is free software: you are free to change and redistribute i 
ibe 

There is NO WARRANTY, to the extent permitted by law. Type "show 
copying" 

and "show warranty" for details. 

This GDB was configured as "i686-linux-gnu". 

For bug reporting instructions, please see: 
<http://www.gnu.org/software/gdb/bugs/>... 

Reading symbols from /home/dennis/polygon/a.out...done. 

(gdb) b 17_1.c:11 

Breakpoint 1 at 0x804845f: file 17_1.c, line 11. 

(gdb) run 

Starting program: /home/dennis/polygon/./a.out 

Breakpoint 1, comp ( a-OxbffffOf8,  b- bQentry-oOxbffffOfc) at 17 

abeat 

11 if (*a==*b) 

(gdb) p *a 

$1 - 1892 

(gdb) p *b 

$2 = 45 

(gdb) c 

Continuing. 

Breakpoint 1, comp ( a-Oxbffffi104, _b= bQentry-Oxbffff108) at 17 

absol 

11 if (*a==*b) 

(gdb) p *a 

$3 - -98 

(gdb) p *b 

$4 = 4087 

(gdb) bt 

#0 comp ( a-OxbffffOf8, _b= bQentry-OxbffffOfc) at 17 1.c:11 

#1 0xb7e42872 in msort with tmp (p-pQentry-OxbffffO7c, b=b@entry 
-OxbffffOf8, n-nQentry-2) 

at msort.c:65 

#2 Oxb7e4273e in msort with tmp (n=2, b-OxbffffOf8, p-zoxbffffO7c 
) at msort.c:45 

#3 msort with tmp (p-pQentry-OxbffffO7c, b-bQentry-oOxbffffOf8, n 
=n@entry=5) at msort.c:53 

#4 Oxb7e4273e in msort with tmp (n=5, b-OxbffffOf8, p-zoxbffffO7c 
) at msort.c:45 

#5 msort with tmp (p-pQentry-OxbffffO7c, b-bQentry-oOxbffffOf8, n 
=n@entry=10) at msort.c:53 

46 Oxb7e42cef in msort with tmp (n-10, b-OxbffffOf8, p-OxbffffO7 
C) at msort.c:45 

#7 . GI qsort r (b-bQentry-OxbffffOf8, n=n@entry=10, s=s@entry=4 
, cmp=cmp@entry=0x804844d «comp 

2, 

arg=arg@entry=0x0) at msort.c:297 

#8 Oxb7e42dcf in _ GI qsort (b-OxbffffOf8, n-10, s-4, cmp=0x8048 
44d <comp>) at msort.c:307 

49 0x0804850d in main (argc=1, argv-Oxbffffic4) at 17 1.c:26 


(gdb) 


23.2.2 GCC + GDB (no source code) 


更 多 时 候 我 们 没有 源码 ， 我 们 可 以 反 汇 编 comp() 函 数 (disas) ， 找 到 CMP 指 令 地 
址 并 设置 断 点 (b)。 每 次 中 断后 ，dump 所 有 寄存 器 的 值 (info registers)， 堆 栈 信息 
(bt)， 但 是 没有 comp() 函 数 对 应 的 行 号 信息 。 


Listing 20.6: GDB session 


dennisQubuntuvm:-/polygon$ gcc 17 1.c 
dennisQubuntuvm:-/polygon$ gdb ./a.out 

GNU gdb (GDB) 7.6.1-ubuntu 

Copyright (C) 2013 Free Software Foundation, Inc. 
License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licen 
ses/gpl.html- 

This is free software: you are free to change and redistribute i 
Ee 

There is NO WARRANTY, to the extent permitted by law. Type "show 
copying" 

and "show warranty" for details. 

This GDB was configured as "i686-linux-gnu". 

For bug reporting instructions, please see: 
«http: //www.gnu.org/software/gdb/bugs/»... 
Reading symbols from /home/dennis/polygon/a.out...(no debugging 
symbols found)...done. 

(gdb) set disassembly-flavor intel 

(gdb) disas comp 

Dump of assembler code for function comp: 
0x0804844d <+0>: push ebp 

0x0804844e <+1>: mov ebp,esp 

0x08048450 <+3>: sub esp,0x10 

0x08048453 <+6>: mov eax,DWORD PTR [ebp+0x8 
0x08048456 <+9>: mov DWORD PTR [ebp-0x8],eax 
0x08048459 <+12>: mov eax,DWORD PTR [ebp+0xc] 
0x0804845c <+15>: mov DWORD PTR [ebp-0x4], eax 
0x0804845f <+18>: mov eax,DWORD PTR [ebp-0x8] 
0x08048462 <+21>: mov edx,DWORD PTR [eax] 
0x08048464 <+23>: mov eax,DWORD PTR [ebp-0x4] 
0x08048467 <+26>: mov eax,DWORD PTR [eax] 
0x08048469 <+28>: cmp edx, eax 

0x0804846b <+30>: jne 0x8048474 <comp+39> 
0x0804846d <+32>: mov eax, 0x0 

0x08048472 <+37>: jmp 0x804848e <comp+65> 
0x08048474 <+39>: mov eax,DWORD PTR [ebp-0x8] 
0x08048477 <+42>: mov edx,DWORD PTR [eax] 
0x08048479 <+44>: mov eax,DWORD PTR [ebp-0x4] 
0x0804847C <+47>: mov eax,DWORD PTR [eax] 
0x0804847e <+49>: cmp edx, eax 

0x08048480 <+51>: jge 0x8048489 <comp+60> 
0x08048482 <+53>: mov eax,O0xffffffff 


0x08048487 
0x08048489 
0x0804848e <+65>: 
0x0804848f <+66>: ret 

End of assembler dump. 

(gdb) b *0x08048469 

Breakpoint 1 at 0x8048469 

(gdb) run 

Starting program: /home/dennis/polygon/./a.out 


«58»: 
«60»: 


jmp 0x804848e <comp+65> 
mov eax, Ox1 
leave 


Breakpoint 1, Ox08048469 in comp () 
(gdb) info registers 
eax Ox2d 45 


ecx 
edx 
ebx 
esp 
ebp 
esi 
edi 
eip 


OxbffffOf8 
0x764 1892 
Oxb7fcoooo 
Oxbfffeeb8 
Oxbfffeeca8 
OxbffffOfc 
OxbffffOo10 


0x8048469 0x8048469 <comp+28> 


-1073745672 


-1208221696 
Oxbfffeeb8 
Oxbfffeeca8 
-1073745668 
-1073745904 


eflags 0x286 [ PF SF IF ] 


cs 
ss 
ds 
es 
fs 
gs 
(gd 
Con 


Breakpoint 1, 0x08048469 in comp () 


0x73 115 
Ox7b 123 
Ox7b 123 
Ox7b 123 
0x0 0 
0x33 51 
b) c 
tinuing. 


(gdb) info registers 


eax Oxff7 4087 

ecx Oxbffff104 -1073745660 
edx Oxffffff9e -98 

ebx Oxb7fc0000 -1208221696 
esp Oxbfffee58 Oxbfffee58 
ebp Oxbfffee68 Oxbfffee68 
esi Oxbffff108 -1073745656 
edi OxbffffO10 -1073745904 
eip 0x8048469 0x8048469 <comp+28> 
eflags 0x282 [ SF IF ] 

cs 0x73 115 

ss Ox7b 123 

ds Ox7b 123 

es Ox7b 123 

fs 0x0 0 

gs 0x33 51 

(gdb) c 

Continuing. 


Breakpoint 1, 0x08048469 in comp () 
(gdb) info registers 


eax Oxffffff9e -98 

ecx Oxbffff100 -1073745664 

edx Oxc8 200 

ebx Oxb7fc0000 -1208221696 

esp Oxbfffeeb8 Oxbfffeeb8 

ebp Oxbfffeec8 Oxbfffeec8 

esi Oxbffff104 -1073745660 

edi OxbffffO10 -1073745904 

eip 0x8048469 0x8048469 <comp+28> 

eflags 0x286 [ PF SF IF ] 

cs 0x73 115 

ss Ox7b 123 

ds Ox7b 123 

es Ox7b 123 

fs 0x0 0 

gs 0x33 51 

(gdb) bt 

40 0x08048469 in comp () 

#1 0xb7e42872 in msort with tmp (p-pQentry-OxbffffO7c, b=b@entry 
-OxbffffOf8, n-nQentry-2) 

at msort.c:65 

#2 0xb7e4273e in msort with tmp (n=2, b-OxbffffOf8, pzoxbffffO7c 
) at msort.c:45 

#3 msort with tmp (p-pQentry-OxbffffO7c, b-bQentry-oOxbffffOf8, n 
=n@entry=5) at msort.c:53 

#4 Oxb7e4273e in msort with tmp (n=5, b-OxbffffOf8, pzoxbffffO7c 
) at msort.c:45 

#5 msort with tmp (p-pQentry-OxbffffO7c, b-bQentry-oOxbffffOf8, n 
=n@entry=10) at msort.c:53 

#6 Oxb7e42cef in msort with tmp (n=10, b=OxbffffOfF8, p-OxbffffO7 
C) at msort.c:45 

#7 . GI qsort r (b-bQentry-OxbffffOf8, n=n@entry=10, s=s@entry=4 
, cmp=cmp@entry=0x804844d «comp 

2, 

arg=arg@entry=0x0) at msort.c:297 

#8 Oxb7e42dcf in . GI qsort (b-zOxbffffOf8, n-10, s-4, cmp=0x8048 
44d <comp>) at msort.c:307 

49 0x0804850d in main () 


第 二 十 四 草 

在 32 位 环境 中 的 64 位 值 

在 32 位 环境 中 的 通用 寄存 器 是 32 位 的 ， 所 以 64 位 值 转化 为 一 对 32 位 值 。 
24.1 返回 64 位 的 值 

24.1.1 x86 


24.1.2 ARM 


24.1.3 MIPS 
24.2 参 数 的 传递 ， 加 法 ， 减 法 


Zinclude <stdint.h> 
uint64 t f1 (uint64 t a, uint64 t b) 
1 


3 
void f1 test () 


return atb; 


{ 
#ifdef | GNUC . 
printf ("%lld", f1(12345678901234, 23456789012345)); 
#else 
printf ("%I64d", f1(12345678901234, 23456789012345) ); 
#endif 
d 
uint64 t f2 (uint64 t a, uint64 t b) 
{ 


iv 


return a-b; 


24.2.1 x86 


代码 21.1: MSVC 2012 /Ox /Ob1 


_a$ = 8 ; size = 8 
_b$ = 16 ; size = 8 
本 使 | PROC 
mov eax, DWORD PTR _a$[esp-4] 
add eax, DWORD PTR _b$[esp-4] 
mov edx, DWORD PTR _a$[esp] 
adc edx, DWORD PTR _b$[esp] 
ret 0 
Exi ENDP 
 f4 test PROC 
push 5461 ; 00001555H 
push 1972608889 ; 75939f79H 
push 2874 ; 00000b3aH 
push 1942892530 ; T3ce2ff2H 
call c 
push edx 
push eax 
push OFFSET $SG1436 ; '9*I64d', OaH, OOH 
call _printf 
add esp, 28 ; 0000001cH 
ret 0 
_fi_test ENDP 
eae PROC 
mov eax, DWORD PTR _a$[esp-4] 
sub eax, DWORD PTR _b$[esp-4] 
mov edx, DWORD PTR _a$[esp] 
sbb edx, DWORD PTR _b$[esp] 
ret 0 
A2 ENDP 


我 们 可 以 看 到 在 函数 f1_test() 中 每 个 64 位 值 转化 为 2 个 32 位 值 ， 高 位 先 转 ， 然 后 是 
低位 。 加 法 和 减法 也 是 如 此 。 


当 进 行 加 法 操作 时 ， 低 32 位 部 分 先 做 加 法 。 如 果 相 加 过 程 中 产生 进位 ， 则 设置 CF 
标志 。 下 一 步 通过 ADC 指 令 加 上 高 位 部 分 ， 如 果 CF 置 1 了 就 增加 1。 


减法 操作 也 是 如 此 。 第 一 个 SUB 操 作 也 会 导致 CF 标志 的 改变 ， 并 在 随后 的 SBB 操 作 
中 检查 : 如 果 CF 置 1 了 ， 那 么 最 终结 果 也 会 减 去 1。 


在 32 位 环境 中 ，64 位 的 值 是 从 EDX:EAX 这 一 对 寄存 器 的 函数 中 返回 的 。 可 以 很 容 
J A BF () BH CR de fT 4 1679 printf() BAH © 


代码 21.2: GCC 4.8.1 -O1 -fno-inline 


S fede 
mov 
mov 
add 
adc 
ret 


PAL (SYST E 
sub 
mov 

79H 
mov 

55H 
mov 
f2H 
mov 
3aH 
call 
mov 
mov 
mov 

2)! 
call 
add 
ret 


mae 
mov 
mov 
sub 
sbb 
ret 


GCC 代码 也 是 如 此 。 


24.2.2 ARM 


24.2.3 MIPS 


eax, 
edx, 
eax, 
edx, 


esp, 
DWORD 


DWORD 
DWORD 
DWORD 


za 

DWORD 
DWORD 
DWORD 


prin 
esp, 


eax, 
edx, 
eax, 
edx, 


21.2 乘法 ， 除 法 


DWORD PTR 
DWORD PTR 
DWORD PTR 
DWORD PTR 


28 


[esp+12] 
[esp+16 ] 
[esp*4] 
[esp*8] 


PTR [esp+8], 1972608889 


PTR [espt12], 5461 


PTR [esp], 1942892530 


PTR [esp+4], 2874 


PTR [esp+4], eax 
PTR [esp+8], edx 
PTR [esp], OFFSET FLAT:LCO 


tf 
28 


DWORD PTR 
DWORD PTR 
DWORD PTR 
DWORD PTR 


[esp+4] 
[esp+8] 
[esp+12] 
[esp+16] 


75939f 


000015 


73ce2f 


00000b 


"%lld1 


Zinclude <stdint.h> 


uint64 t f3 (uint64 t a, uint64 t b) 
{ 
return a*b; 
J; 
uint64_t f4 (uint64_t a, uint64_t b) 
{ 
return a/b; 
J; 
uint64_t f5 (uint64_t a, uint64_t b) 
{ 
return a % b; 
J; 
24.3.1 x86 


代码 21.3: MSVC 2012 /Ox /Ob1 


_a$ = 8 TSize = 8 
_b$ = 16 co Sa S D 
SIS PROC 

push DWORD PTR _b$[esp] 

push DWORD PTR _b$[esp] 

push DWORD PTR _a$[esp+8] 

push DWORD PTR _a$[esp+8] 

call . allmul ; long long multiplication 

ret 0 
ES ENDP 
_a$ = 8 ; size = 8 
_b$ = 16 ; size = 8 
_f4 PROC 

push DWORD PTR _b$[esp] 

push DWORD PTR _b$[esp] 

push DWORD PTR _a$[esp+8] 

push DWORD PTR _a$[esp+8] 

call . aulldiv ; unsigned long long division 

ret 0 
_f4 ENDP 
_a$ = 8 ; size = 8 
_b$ = 16 ; size = 8 
LOS PROC 

push DWORD PTR _b$[esp] 

push DWORD PTR _b$[esp] 

push DWORD PTR _a$[esp+8] 

push DWORD PTR _a$[esp+8] 

call . aullrem ; unsigned long long remainder 

ret 0 
_f5 ENDP 


乘法 和 除法 是 更 为 复杂 的 操作 ， 一 般 来 说 ， 编 译 器 会 误 
部 分 函数 的 意义 : 可 参见 附录 E。 
Listing 21.4: GCC 4.8.1 -O3 -fno-inline 


Rete 
push 
mov 
mov 
mov 
mov 
imul 
imul 
mul 
add 
add 
pop 
ret 

EnA: 
sub 
mov 
mov 
mov 
mov 
mov 
mov 
mov 
mov 
call 
add 
ret 

ERSE 
sub 
mov 
mov 
mov 
mov 
mov 
mov 
mov 
mov 
call 
add 
ret 


ebx 

edx, DWORD PTR [esp+8] 
eax, DWORD PTR [esp+16] 
ebx, DWORD PTR [esp+12] 
ecx, DWORD PTR [esp+20] 
ebx, eax 

ecx, edx 

edx 

ecx, ebx 

edx, ecx 

ebx 


esp, 28 

eax, DWORD PTR [esp+40] 
edx, DWORD PTR [esp+44] 
DWORD PTR [esp+8], eax 
eax, DWORD PTR [esp+32] 
DWORD PTR [esp+12], edx 
edx, DWORD PTR [esp+36] 
DWORD PTR [esp], eax 
DWORD PTR [esp+4], edx 


esp, 28 


esp, 28 

eax, DWORD PTR [esp+40] 
edx, DWORD PTR [esp+44] 
DWORD PTR [esp+8], eax 
eax, DWORD PTR [esp+32] 
DWORD PTR [esp+12], edx 
edx, DWORD PTR [esp+36] 
DWORD PTR [esp], eax 
DWORD PTR [esp+4], edx 


入 库 函 数 的 calls 来 使 用 。 


udivdi3 ; unsigned division 


.  umoddi3 ; unsigned modulo 


esp, 28 


GCC 的 做 法 几乎 一 样 ， 但 是 乘法 代码 内 联 在 函数 中 ， 可 认为 这 样 更 有 效 。 
GCC 有 一 些 不 同 的 库 函 数 : 参见 附录 DD 


24.3.2 ARM 


24.3.3 MIPS 
21.3 右 位 移 


Zinclude <stdint.h> 
uint64 t f6 (uint64 t a) 


{ 
return a>>7; 
J; 
24.4.1 x86 


代码 21.5: MSVC 2012 /Ox /Ob1 


_a$ = 8 ; size = 8 
_f6 PROC 

mov eax, DWORD PTR _a$[esp-4] 

mov edx, DWORD PTR _a$[esp] 

shrd eax, edx, 7 

shr edx, 7 

ret 0 
_f6 ENDP 


代码 21.6: GCC 4.8.1 -O3 -fno-inline 


f6: 
mov edx, DWORD PTR [esp+8] 
mov eax, DWORD PTR [esp+4] 
shrd eax, edx, 7 
shr edx, 7 
ret 


右 移 也 是 分 成 两 步 完 成 : 先 移 低 位 ， 然 后 移 高 位 。 但 是 低位 部 分 通过 指令 SHRD 移 
动 ， 它 将 EDX 的 值 移动 7 位 ， 并 从 EAX 借 来 1 位 ， 也 就 是 从 高 位 部 分 。 而 高 位 部 分 通 
过 更 受 欢迎 的 指令 SHR 移 动 : 的 确 ， 高 位 释放 出 来 的 位 置 用 0 卉 充 。 


24.4.2 ARM 


24.4.3 MIPS 


24.5 从 32 位 值 转化 为 64 位 值 


24.5.1 x86 


24.5.2 ARM 


24.5.3 MIPS 


Zinclude <stdint.h> 
int64_t f7 (int64 t a, int64_t b, int32_t c) 
{ 


return a*b+c; 


}; 
int64 t f7_main () 
{ 
return f7(12345678901234, 23456789012345, 12345); 
3 


代码 21.7: MSVC 2012 /Ox /Ob1 


a$ = 8 ; size = 8 
_b$ = 16 ; size = 8 
_c$ = 24 = Size S A 
X PROC 

push esi 
push DWORD PTR _b$[esp+4] 
push DWORD PTR _b$[esp+4] 
push DWORD PTR _a$[espt+12] 
push DWORD PTR _a$[esp+12] 
call . allmul ; long long multiplication 
mov ecx, eax 
mov eax, DWORD PTR c$[esp] 
mov esi, edx 
cdq ; input: 32-bit value in EAX; output 
: 64-bit value in EDX:EAX 
add eax, ecx 
adc edx, esi 
pop esi 
ret 0 
Sc ENDP 
_f7_main PROC 
push 12345 ; 00003039H 
push 5461 ; 00001555H 
push 1972608889 ; 75939f79H 
push 2874 ; 00000b3aH 
push 1942892530 ; 73ce2ff2H 
call "E RT 
add esp, 20 ; 00000014H 
ret 0 


 f7 main ENDP 


这 里 我 们 有 必要 将 有 符号 的 32 位 值 从 c 转 化 为 有 符号 的 64 位 值 。 无 符号 值 的 转化 简 
BTS: 所 有 的 高 位 部 分 全 部 置 0。 但 是 这 样 不 适合 有 符号 的 数据 类 型 : 符号 标志 
应 复制 到 结果 中 的 高 位 部 分 。 这 里 用 到 的 指令 是 CDQ， 它 从 EAX 中 取出 数值 ， 将 其 
变 为 64 位 并 存放 到 EDX:EAX 这 一 对 寄存 器 中 。 换 名 话说 ， 指 令 CDQ 从 EAX 中 获取 
符号 (通过 EAX 中 最 重要 的 位 ) ， 并 根据 它 来 设置 EDX 中 所 有 位 为 0 还 是 为 1。 它 的 
操作 类 似 于 指令 MOVSX (13.1.1) 。 


代码 21.8: GCC 4.8.1 -O3 -fno-inline 


IE 


push edi 

push esi 

push ebx 

mov esi, DWORD PTR [esp-*16] 

mov edi, DWORD PTR [esp+24] 

mov ebx, DWORD PTR [esp+290 

mov ecx, DWORD PTR [esp+28 

mov eax, esi 

mul edi 

imul ebx, edi 

imul ecx, esi 

mov esi, edx 

add ecx, ebx 

mov ebx, eax 

mov eax, DWORD PTR [esp-*32] 

add esi, ecx 

cdq ; input: 32-bit value in EAX; output: 64 
-bit value in EDX:EAX 

add eax, ebx 

adc edx, esi 

pop ebx 

pop esi 

pop edi 

ret 
f? main: 

sub esp, 28 

mov DWORD PTR [esp+16], 12345 ; 00 
003039H 

mov DWORD PTR [esp+8], 1972608889 n Ts; 
939f 79H 

mov DWORD PTR [esp+12], 5461 ; 00 
001555H 

mov DWORD PTR [esp], 1942892530 E E 
ce2ff2H 

mov DWORD PTR [esp+4], 2874 ; 00 
000b3aH 

call 
AU 

add esp, 28 

ret 


GCC A 89 IE A RA IRMSVC— IŽ » dE Re UP ARARA S BS :32548 
在 16 位 环境 中 (30.4) 


第 二 十 五 章 


SIMD 


SIMD X Single Instruction, Multiple Data 的 首 字母 。 简 单 说 就 是 单 指令 多 数据 流 。 
就 像 FPU，FPU 看 起 来 更 像 独立 于 X86 处 理 器 。 
SIMD 开 始 于 MMX x86。8 个 新 的 64 位 寄存 器 MM0-MM7 被 添加 。 


每 个 MMX 寄存 器 包含 2 个 32-bit 值 /4 个 16-bit 值 /8 字 节 。 比 如 可 以 通过 一 次 添加 两 个 

值 到 MMX 寄存 器 来 添加 8 个 8-bit (FP) 。 

一 个 简单 的 例子 就 是 图 形 编辑 器 ， 将 图 像 表示 为 一 个 二 维 数组 ， 当 用 户 改 变 图 像 的 
亮度 ， 编 辑 器 必须 添加 每 个 像素 的 差 值 。 为 了 简单 起 见 ， 将 每 个 像素 定义 为 一 个 8 

位 字 节 ， 就 可 以 同时 改变 8 个 像素 的 亮度 。 

当 使 用 MMX 的 时 候 ， 这 些 寄存 器 实际 上 位 于 FPU 寄 存 器 。 所 以 可 以 同时 使 用 FPU 和 
MMX 寄存 器 。 有 人 可 能 会 认为 ，intel 基 于 晶体 管 保 存 ， 事 实 上 ， 这 种 共生 关系 的 原 
因 是 : 老 的 操作 系统 不 知道 额外 的 CPU 寄存 器 ， 上 下 文 切 换 是 不 会 保存 这 些 寄存 

器 ， 可 以 节省 FPU 寄 存 器 。 这 样 激活 MMX 的 CPU+ 昌 的 操作 系统 + 利用 MMX 特性 的 
处 理 器 = 所 有 一 起 工作 。 


SSE-SIMD 寄 存 器 扩展 至 128bits， 独 立 于 FPU ° 
AVX- 另 一 种 256bits 扩 展 。 
实际 应 用 还 包括 内 存 复制 (memcpy) 和 内 存 比 较 (memcmp) 等 等 。 


一 个 例子 是 : DES 加 密 算 法 需要 64-bits block，56-bits key, 加 密 块 生成 64 位 结果 。 
DES 算 法 可 以 认为 是 一 个 非常 大 的 电子 电路 ， 带 有 网 格 和 AND/OR/NOT 门 。 


Bitslice DES2 一 可 以 同时 处 理 块 和 密 钥 。 比 如 说 unsigned int 类 型 变量 在 X86 下 可 以 
容纳 32 位 ， 因 此 ， 使 用 64+56 unsigned int 类 型 的 变量 ， 可 以 同时 存储 32 个 blocks- 
keys 对 。 


我 写 了 一 个 爆破 Oracle RDBMS 密 码 / 哈 希 〈 基 于 DES) 的 工具 。 稍 微 修 改 了 DES 算 
ik (SSE2 和 AVX) 现在 可 以 同时 加 密 128 或 256block-keys 对 。 


http://conus.info/utils/ops_SIMD/ 


25.1 Vectorization 


向 量化 3， 例 如 循环 用 两 个 数组 生成 一 个 数组 。 循 环 体 从 输入 数组 中 取 值 ， 处 理 后 
存储 到 另 一 个 数组 。 重 要 的 一 点 是 操作 了 每 一 个 元 素 。 向 量化 一 同时 处 理 多 个 元 
Žo 


向 量化 并 不 是 新 的 技术 : 本 书 的 作者 在 1998 年 使 用 Cray Y-MP EL'lite" 时 从 Cray Y- 
MP supercomputer line 看 到 过 。 


例子 : 


for (i = 0; i < 1024; i++) 


Cli] = A[i]*B[i]; 


这 段 代码 从 A 和 B 中 取出 元 素 ， 相 乘 ， 并 把 结果 保存 到 C。 


如 果 每 个 元 素 为 32 位 int 型 ， 那 么 可 以 从 A 中 加 载 4 个 元 素 到 128bits XMM 寄 存 器 ，B 
加 载 到 另 一 个 XMM 寄 存 器 ， 通 过 执行 PMULID (Multiply Packed Signed Dword 
Integers and Store Low Result) 和 PMULHW(Multiply Packed Signed Integers 
and Store High Result)， 一 次 可 以 得 到 4 个 64 位 结果 。 


循环 次 数 从 1024 变 成 1024/4， 当 然 更 快 。 


25.1.1 Addition example 
一 些 简 单 的 情况 下 某 些 编译 器 可 以 自动 向 量化 ，|ntel C++5. 
函数 如 下 : 


int f (int sz, int *ar1, int *ar2, int *ar3) 
for (int i=0; i<sz; i++) 
ar3[i]=ar1[i]+ar2[i]; 
return 0; 


Intel C++ 
Intel C++ 11.1.051 win32 下 编译 : 
icl intel.cpp /QaxSSE2 /Faintel.asm /Ox 
可 以 得 到 (IDA 中 ): 
Pale = COC Wali edie y LIES ED E29) 


public ?fQQYAHHPAHOOQZ 
?fQQYAHHPAHOOQZ proc near 


var 10 = dword ptr -10h 
SZ - dword ptr 4 
ari - dword ptr 8 
ar2 = dword ptr OCh 


ar3 


loc. 36: 


= dword ptr 10h 


push edi 

push esi 

push ebx 

push esi 

mov edx, [esp-*10h-sz] 
test edx, edx 

jle loc_15B 

mov eax, [esp+10h+ar3] 
cmp edx, 6 

jle loc 143 

cmp eax, [esp+10h+ar2] 
jbe short loc 36 

mov esi, [esp-*10h«ar2] 
sub esi, eax 

lea ecx, ds:O[edx*4] 
neg esi 

cmp ecx, esi 

jbe short loc 55 


nto vb S skip tlt) EL 


; CODE XREF: f(i 


; CODE XREF: f( 


; CODE XREF: f( 


cmp eax, [esp+10h+ar2] 
jnb loc 143 
mov esi, [esp+i0ht+ar2] 
sub esi, eax 
lea ecx, ds:O[edx*4] 
cmp esi, ecx 
jb loc 143 

loc_55: ; CODE XREF: f(int,int o^ nt *,int *)+34 
cmp eax, [esp+10h+ar1] 
jbe short loc_67 
mov esi, [esp+10h+ar1] 
sub esi, eax 
neg esi 
cmp ecx, esi 
jbe short loc_7F 

loc_67: 

ahes aue Sele nt ts9 
cmp eax, [esp+10h+ar1] 
jnb loc_143 
mov esi, [esp+10h+ar1] 
sub esi, eax 
cmp esi, ecx 
jb loc_143 

loc 7F: 

ime ante ne SPEIDO EDD 
mov edi, eax ; edi = ari 
and edi, OFh ; is ari 16-byte aligned? 
jz short loc_9A ; yes 
test edi, 3 


jnz loc 162 


neg edi 

add edi, 10h 

shr edi, 2 
loc 9A: ; CODE XREF: f( 
int,int *,int *,int *)+84 

lea ecx, [edi+4] 

cmp edx, ecx 

jl loc_162 

mov ecx, edx 

sub ecx, edi 

and ECXaES 

neg ecx 

add ecx, edx 

test edi, edi 

jbe short loc D6 

mov ebx, [esp+10h+ar2] 

mov [esp*10h-var 10], ecx 

mov ecx, [esp+10h+ar1] 

xor esi, esi 
OG: ; CODE XREF: f( 
int,int *,int *,int *)+CD 

mov edx, [ecx+esi*4] 

add edx, [ebx+esi*4] 

mov [eax+esi*4], edx 

inc esi 

cmp esi, edi 

jb short loc_C1 

mov ecx, [esp+10h+var_10] 

mov edx, [esp+10h+sz] 
loc_D6: ; CODE XREF: f 
Gne int arint oii, FBZ 

mov esi, [esp+10h+ar2] 

lea esi, [esi+edi*4] ; is ar2+i*4 16-byte al 
igned? 

test esi, OFh 

jz short loc 109 ; yes! 

mov ebx, [esp+10h+ar1] 

mov esi, [esp+10h+ar2] 
loc_ED: ; CODE XREF: f 


(SUPE Gabe alike Sod v db 

movdqu xmmi, xmmword ptr [ebx+edi*4] 

movdqu xmmO, xmmword ptr [esit+edi*4] ; ar2+i*4 
is not 16-byte aligned, so load 

it to xmmO 

paddd xmmi, xmmO 

movdqa xmmword ptr [eax-edi*4], xmmi 

add edi, 4 

cmp edi, ecx 


jb short loc ED 


jmp short loc 127 
7 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
loc 109: ; CODE XREF: 
Gne ante nt Nne ch Es 

mov ebx, [esp+10h+ar1] 

mov esi, [esp+10h+ar2] 
loc_111: ; CODE XREF: 


Gne cnt arine A imne a )dzb25 
movdqu xmmO, xmmword ptr [ebx+edi*4] 
paddd xmmO, xmmword ptr [esi-edi*4] 
movdqa xmmword ptr [eax-edi*4], xmmO 


add edi, 4 
cmp edi, ecx 
jb short loc 111 
loc 127: ; CODE XREF: 


(Gnt antes int ^ aint ^ 5107 


f 


ssp SEDE DRE s 


int *,int *)+164 


cmp ecx, edx 

jnb short loc_15B 

mov esi, [esp+10h+ar1] 
mov edi, [esp+10h+ar2] 


loc_133: ; CODE XREF: f(int,int *,int *,int *)+13F 


mov ebx, [esi+ecx*4] 

add ebx, [edi+ecx*4] 

mov [eax+ecx*4], ebx 

inc ecx 

cmp ecx, edx 

jb short loc_133 

jmp short loc_15B 
7 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
loc 143: ; CODE XREF: 


Gne d nt FE IY EE SEXES 


pease eal gy eal gh ae 


E E) oA 


mov esi, [esp+10h+ar1] 

mov edi, [esp+10h+ar2] 

xor ecx, ecx 
loc 14D: ; CODE XREF: 
Gne ine ent Tint ls 

mov ebx, [esitecx*4] 

add ebx, [editecx*4] 

mov [eaxt+ecx*4], ebx 

inc ecx 

cmp ecx, edx 


jb short loc 14D 


f 


loc 15B: ; CODE XREF: f 
(int,int *,int *,int *)+A 

(elit 
UE S CET A aa) aa m 


xor eax, eax 
pop ecx 
pop ebx 
pop esi 
pop edi 
retn 
P 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
loc 162: ; CODE XREF: 


f(int,int *,int *,int *)+8C 
> (mtn 
rint * mt *)+9F 
xor ecx, ecx 
jmp short loc_127 
?F@@YAHHPAHOO@Z endp 


SSE2 相 关 指 令 是 : 


MOVDQU (Move Unaligned Double Quadword)- 亿 仅 从 内 存 加 载 16 个 字 节 到 XMM 
寄存 器 。 

PADDD (Add Packed Integers )-- 把 源 存储 器 与 目的 寄存 器 按 双 字 对 齐 无 符号 整数 
普通 相 加 ,结果 送 入 目的 寄存 器 ,内 存 变 量 必 须 对 齐 内 存 16 字 节 . 

MOVDQA (Move Aligned Double Quadword)-=- 把 源 存储 器 内 容 值 送 入 目的 寄存 器 ， 
当 有 m128 时 ,必须 对 齐 内 存 16 字 节 ， 


如 果 工 作 元 素 超 过 4 对 ， 并 且 指 针 ar3 按 照 16 字 节 对 齐 ，SSE2 指 令 将 被 执行 : 如 果 
ar2 按 照 16 字 节 对 齐 ， 则 代码 如 下 : 


movdqu xmmO, xmmword ptr [ebx+edi*4] ; ari+i*4 
paddd xmmO, xmmword ptr [esitedi*4] ; ar2+i*4 
movdqa xmmword ptr [eax-edi*4], xmmO ; ar3-*i*4 


否则 ,ar2 处 的 值 将 用 MOVDQU 加 载 到 XMM0， 它 不 需要 对 齐 指针 ， 代 码 如 下 : 


movdqu xmmi1, xmmword ptr [ebx+edi*4] ; ari+i*4 

movdqu xmmO, xmmword ptr [esitedi*4] ; ar2+i*4 is not 16-byte a 
ligned, so load it to xmmo 

paddd xmmi, xmmO 

movdqa xmmword ptr [eaxtedi*4], xmmi1 ; ar3-*i*4 


其 他 情况 ， 将 没有 SSE2 代 码 被 执行 。 


GCC 
gcc 用 -O3 选项 同时 打开 SSE2 支 持 : -msse2. 


可 以 得 到 (GCC 4.4.1): 


a esie o cme ne D CS e) 
public Z4fiPiS S. 


ezbpipisss proc near 
var 18 = dword ptr -18h 
var 14 = dword ptr -14h 
var 10 = dword ptr -10h 
arg_0 = dword ptr 8 
arg 4 - dword ptr OCh 
arg 8 = dword ptr 10h 
arg C - dword ptr 14h 
push ebp 
mov ebp, esp 
push edi 
push esi 
push ebx 
sub esp, OCh 
mov ecx, [ebp+arg 0] 
mov esi, [ebp+arg_ 4] 
mov edi, [ebp+arg 8] 
mov ebx, [ebp-arg C] 
test ecx, ecx 
jle short loc 80484D8 
cmp ecx, 6 
lea eax, [ebx+10h] 
ja short loc_80484E8 
loc_80484C1: ; CODE XREF: f(int, int *,int *,i 
nt *)+4B 
a PUM GS BLUES SLE Oe AASL 
xor eax, eax 
nop 
lea esi, [esi+0] 
loc 80484C8: ; CODE XREF: f(int, int *,int *,i 
nt *)+36 
mov edx, [edi+eax*4] 
add edx, [esi+eax*4] 
mov [ebx+eax*4], edx 
add eax, 1 
cmp eax, ecx 
jnz short loc 80484C8 
loc 80484D8: ; CODE XREF: f(int,int *,int *,i 
nt *)+17 


A PME aE SLNE r ae ANAS 


add esp, OCh 


xor eax, eax 

pop ebx 

pop esi 

pop edi 

pop ebp 

retn 
fh 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 

align 8 
loc 80484E8: ; CODE XREF: f(int,int *,int *,i 
nt *)«1F 

test bl, OFh 

jnz short loc 80484C1 

lea edx, [esi-10h] 

cmp ebx, edx 

jbe loc 8048578 
loc 80484F8: ; CODE XREF: f(int,int *,int *,i 
nt *)+E0 

lea edx, [edi+10h] 

cmp ebx, edx 

ja short loc 8048503 

cmp edi, eax 

jbe short loc 80484C1 
loc 8048503: ; CODE XREF: f(int,int *,int *,i 
nt *)+5D 

mov eax, ecx 

shr eax, 2 

mov [ebp*var 14], eax 

shl eax, 2 

test eax, eax 

mov [ebp*var 10], eax 

jz short loc_8048547 

mov [ebp+var_18], ecx 

mov ecx, [ebp+var_14] 

xor eax, eax 

xor edx, edx 

nop 
loc_8048520: ; CODE XREF: f(int,int *,int *,i 
nt *)+9B 


movdqu xmmi, xmmword ptr [editeax] 
movdqu xmmO, xmmword ptr [esiteax] 
add edx, 1 

paddd xmmO, xmmi 

movdqa xmmword ptr [ebx-eax], xmmO 


add eax, 10h 
cmp edx, ecx 
jb short loc 8048520 
mov ecx, [ebp-var 18] 


mov eax, [ebp-var. 10] 


cmp ecx, eax 


jz short loc 80484D8 
loc 8048547: ; CODE XREF: f(int,int *,int *,i 
nt *)+73 

lea edx, ds:O[eax*4] 

add esi, edx 

add edi, edx 

add ebx, edx 

lea esi, [esi-0] 
loc 8048558: ; CODE XREF: f(int,int *,int *,i 
Iib EGG 

mov edx, [edi] 

add eax, 1 

add edi, 4 

add edx, [esi] 

add esi, 4 

mov [ebx], edx 

add ebx, 4 

cmp ecx, eax 

jg short loc 8048558 

add esp, OCh 

xor eax, eax 

pop ebx 

pop esi 

pop edi 

pop ebp 

retn 
F 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
loc 8048578: ; CODE XREF: f(int,int *,int *,i 
nt *)+52 

cmp eax, esi 

jnb loc 80484C1 

jmp loc 80484F8 
EZATIP ISS Ses endp 


几乎 一 样 ， 但 没有 Intel 的 细致 。 


25.1.2 Memory copy example 


22.2 SIMD Seni implementation 


SIMD 指 令 可 能 通过 特殊 的 宏 8 插 入 到 C/C++ 代 码 中 。MSVC 中 他 们 被 保存 在 intrin.h 
中 o 


Strlen() 82949 3: 34$ F] Y SIMD & 
字符 加 载 到 一 个 XMM 寄 存 器 并 检查 是 否 


比 弟 规 的 实 现 快 了 2-2.5 倍 。 该 函数 将 16 个 


size t strlen sse2(const char *str) 
{ 

register size t len = 0; 

const char *s=str; 

bool str is aligned-(((unsigned int)str)&OXFFFFFFFO) == 
(unsigned int)str; 


if (str is aligned--false) 
return strlen (str); 


. m128i xmmO = mm setzero si128(); 
. m128i xmmi; 
int mask - 0; 


for (;;) 
{ 
xmm1 = _mm_load_sii28((__m128i *)s); 
xmm1 = mm cmpeq epi8(xmmi, xmmO); 
if ((mask = mm movemask epi8(xmmi1)) != 0) 
{ 


unsigned long pos; 
_BitScanForward(&pos, mask); 
len += (size t)pos; 
break; 

} 

s += sizeof( m128i); 

len += sizeof( m128i); 


ti; 


return len; 


(这 里 的 例子 基于 源 代码 ) 
MSVC 2010 /Ox 编译 选项 : 


_pos$75552 = -4 ; Size = 4 
_str$ = 8 seca 
?strlen_sse2@@YAIPBD@Z PROC ; Strlen sse2 

push ebp 

mov ebp, esp 

and esp, -16 ; fffffffOH 

mov eax, DWORD PTR | str$[ebp] 

sub esp, 12 ; 0000000cH 

push esi 

mov esi, eax 

and esi, -16 ; fffffffOH 

xor edx, edx 

mov ecx, eax 


cmp esi, eax 


je SHORT $LNAQstrlen sse 


lea edx, DWORD PTR [eax+1] 
npad 3 
$LL110strlen sse: 
mov cl, BYTE PTR [eax] 
inc eax 
test cl vcl 
jne SHORT $LL11@strlen_sse 
sub eax, edx 
pop esi 
mov esp, ebp 
pop ebp 
ret 0 


$LNAQstrlen sse: 
movdqa xmmi1, XMMWORD PTR [eax] 
pxor xmmO, xmmo 
pcmpeqb xmmi, xmmO 
pmovmskb eax, xmmi 
test eax, eax 
jne SHORT $LN9@strlen_sse 
$LL3Qstrlen sse: 
movdqa xmmi, XMMWORD PTR [ecx+16] 


add ecx, 16 ; 00000010H 

pcmpeqb xmmi, xmmo 

add edx, 16 ; 00000010H 

pmovmskb eax, xmmi 

test eax, eax 

je SHORT $LL3Qstrlen sse 
$LN9Qstrlen sse: 

bsf eax, eax 

mov ecx, eax 

mov DWORD PTR  pos$75552[esp-*16], eax 

lea eax, DWORD PTR [ecx+edx] 

pop esi 

mov esp, ebp 

pop ebp 

ret 0 


?strlen_sse2@@YAIPBD@Z ENDP ; strlen_sse2 


首先 ， 检 查 str 指 针 ， 如 果 不 是 按照 16 字 节 对 齐 则 调用 常规 实现 。 


然后 使 用 movdqa 指 令 加 载 16 个 字 节 到 xmm1. 这 里 不 使 用 movdqu 的 原因 是 如 果 指 针 
不 一 致 则 从 内 存 中 加 载 的 数据 可 能 会 不 一 致 。 


是 的 ， 它 可 能 会 以 这 种 方式 做 ， 如 果 指 针对 齐 ， 使 用 MOVDQA 加 载 数 据 ， 和 否则 使 
用 比较 慢 的 MOVDQU 。 

但 是 我 们 应 该 注意 到 这 样 的 警告 : 

在 windowsNT 操 作 系 统 但 不 限于 该 操作 系统 ， 内 存 页 按 4kb 对 齐 。 每 个 win32 进 程 独 
占 4GB 认 拟 内 存 。 事 实 上 ， 只 有 部 分 地 址 空间 与 真实 物理 内 存 对 应 ， 如 果 进 程 访问 
的 内 存 没 有 对 应 物理 内 存 , 将 触发 异常 A 这 是 虚拟 内 存 的 工作 方式 10. 


一 个 函数 一 次 加 载 16 个 字 节 ， 可 能 会 跨 内 存 分 块 访问 。 我 们 考虑 这 样 一 种 情况 ， 操 
作 系 统 在 x008c0000 分 配 8192 (0x2000) 字 节 ,因此 块 字 节 从 地 质 0x008c0000 到 
Ox008c1fff ° 内 存 块 之 后 从 0x008c2000 什 么 都 没有 ， 操 作 系 统 没 有 分 配 任何 内 存 。 
访问 该 地 址 将 触发 异常 。 


假如 内 存 块 包含 的 最 后 5 个 字符 如 下 : 


0x008c1ff8 'h* 
0x008c1ff9 Ken 
0x008c1ffa ALY 
0x008c1ffb eis 
0x008c1ffc 'o' 
0x008c1ffd “X00 
0x008c1ffe random noise 
0x008c1fff random noise 


正常 情况 下 ，strlen() 只 会 读 取 到 ”hello”。 
如 果 我 们 使 用 MOVDQU 读 取 16 个 字 节 ， 将 会 触发 异常 ， 应 该 避免 这 种 情况 。 
因为 我 们 要 确保 16 字 节 对 齐 ， 保 证 我 们 不 会 读 取 未 分 配 的 内 存 。 
TREF HA : 
mm setzero sii128()—Zpxor xmm0, xmmO0—i# 2 XMMO% ËZ ° 
mm load sii128()—Z MOVDQA, 从 内 存 加 载 16 个 字 节 到 XMM 寄 存 器 。 


mm cmpeq epi8()—ZPCMPEQB, 比较 XMM 寄 存 器 的 字 节 位 ， 如 果 相 等 则 为 Gxff 否 则 
为 9。 


比如 : 


XMM1: 11223344556677880000000000000000 
XMMO: 11ab3444007877881111111111111111 


执行 pcmpeqb xmm1, xmm0 之 后 ，XMM1 寄 存 器 的 值 为 : 
XMM1: ff0000ff0000ffff0000000000000000 


在 本 例 中 该 指令 比较 每 一 个 16 字 节 块 与 16 字 节 0 字 节 块 对 比 ，XMM0 通 过 pxor 
xmm0 xmm0 Ë X » 


接 下 来 宏 _ mm movemask epi8() 一 这 是 PMOVMSKB 指 令 。 
pmovmskb eax, xmm1 


pmovmskb 创 建 源 操作 数 每 一 个 字 节 的 自 高 位 掩 码 ， 并 保存 结果 到 目的 操作 数 的 低 
byte。 源 操作 数 必 须 为 MMX 寄存 器 ， 目 的 操作 数 必 须 为 32 位 通用 寄存 器 。 


比如 : 


XMM1: 0000ff00000000000000ff0000000000 
对 应 的 EAX : 
EAX-0010000000100000b 
之 后 bsf eax,eax 被 执行 ，eax 值 为 5， 意 味 着 第 一 个 是 1 的 位 置 是 5 (从 0 开始 ) 。 
MSVC 关 于 这 个 指令 的 宏 是 :_BitScanForward. 
至 此 ， 找 到 结尾 0 的 位 置 ， 然 后 程序 返回 长 度 计数 。 
整个 过 程 大 致 就 是 这 样 。 
顺便 提 一 下 ，MSVC 为 了 优化 ， 使 用 了 两 个 并 排 的 循环 。 
SSE 4.2( X 4$ R core i7) 提 供 了 更 多 的 指令 ,这 些 可 能 更 容易 字符 串 操作 。 


http://www.strchr.com/strcemp and strlen using sse 4.2 


第 二 十 六 章 
64 位 化 


26.1 x86-64 


对 X86 架构 来 说 这 是 一 个 64 位 的 扩展 。 从 反 编 译 工 程 师 的 角度 来 看 ， 最 重要 的 区 别 
是 : 几乎 所 有 的 寄存 器 (除了 FPU 和 SIMD) 都 扩展 到 了 64 位 ， 而 且 都 有 一 个 r- 前 
级 ， 而 且 还 额外 添加 了 8 个 寄存 器 。 现 在 所 有 的 通用 寄存 器 是 : RAX、RBX、 

RCX ` RDX ` RBP ^ RSP ` RSI ` RDI ` R8 ` R9 ` R10 ` R11 ^ R12 ` R13、R14、 
R15。 ZR» RATARA — 4E Aa S89 GBA o eka * 48 A EAXH T VA T] 
RAX 的 低 32 位 部 分 。 新 的 R8-R15 寄 存 器 也 有 对 应 的 低位 : R8D-R15D (1432 

位 ) > RaW-R15W ( 低 16 位 ) 、R8B-R15B ( 低 8 位 ) 。 SIMD 寄 存 器 的 数量 从 8 个 
扩展 到 了 16 个 : XMMO-XMM15 © 


在 Win64 下 ， 了 有 函数 调用 转换 有 一 些 轻微 的 变化 。 例 如 fastcall ( JLA7.3 3 ) 。 最 开始 
的 4 个 参数 将 存储 在 RCX、RDX、R8 和 R9 寄 存 器 里 ， 其 他 的 保存 在 栈 上 。 调 用 者 兄 
数 必 须 分 配 32 个 字 节 ， 因 此 被 调用 者 可 以 保存 前 4 个 参数 ， 然 后 再 去 按照 他 自己 的 
需要 去 利用 这 些 寄 存 器 。 一 些 较 短 的 函数 可 以 直接 从 寄存 器 里 使 用 参数 ， 但 是 大 点 
的 防 数 就 需要 把 参数 保存 到 栈 上 了 。 系统 V AMD64 ABI (LINUX, *BSD, MAC OS 
X) 也 改变 了 fastcall 的 方式 。 它 为 前 6 个 参数 使 用 了 6 个 寄存 器 RDI、RSI、RDX、 
RCX、R8、R9。 剩 余 的 参数 将 传 入 栈 中 。 请 看 调用 转换 (47) 一 节 。 


为 了 保证 兼容 性 ，C int 类 型 依然 是 32 位 。。 现 在 所 有 的 指针 都 是 64 位 的 了 。 当然 这 
个 有 时 候 很 麻烦 : 因为 现在 我 们 需要 2 倍 的 空间 来 存储 指针 ， 包 括 缓存 ， 而 不 管事 
实 上 64 位 CPU 只 会 使 用 48 位 的 扩展 内 存 这 个 情况 。 


由 于 现在 寄存 器 数量 翻 们 了， 编译 器 也 将 有 更 多 的 空间 来 处 理 寄存 器 分 配 的 策略 。 
对 我 们 来 说 ， 也 就 是 现在 提交 的 代码 将 会 有 更 少 的 本 地 变量 。 例 如，DES 加 密 算 法 
中 计算 第 一 个 S-Box 时 ， 使 用 位 切割 DES 方 法 ( 见 22 章 ) 他 将 每 次 处 理 
32/64/128/256 个 变量 (依据 DES type 类 型 (uint32、uint64、SSE2 或 者 

AVX) ) œ 


Vie 

* Generated S-box files. 

* 

* This software may be modified, redistributed, and used for any 
purpose, 

* so long as its origin is acknowledged. 
* 

* Produced by Matthew Kwan - March 1998 
sa 

#ifdef _WIN64 

#define DES type unsigned — int64 

#else 


#define DES type unsigned int 


Zendif 
void 
s1 ( 
DES type a1, 
DES type a2, 
DES type a3, 
DES type a4, 
DES type a5, 
DES type a6, 
DES type *out1, 
DES type *out2, 
DES type *out3, 
DES type *out4 
) {í 
DES type x1, x2, x3, x4, x5, 
DES type x9, x10, x11, x12, 
DES type x17, x18, x19, x20, 
DES type x25, x26, x27, x28, 
DES type x33, x34, x35, x36, 
DES type x41, x42, x43, x44, 
DES type x49, x50, x51, x52, 
X1 = a3 & -a5; 
x2 = x1 ^ a4; 
x3 = a3 & ~a4; 
x4 = x3 | a5; 
x5 = a6 & x4; 
x6 = X2 ^ x5; 
x7 = a4 & ~a5; 
x8 = a3 ^ a4; 
x9 = a6 & -x8; 
X10 = x7 ^ x9; 
x11 = a2 | x10; 
X12 = x6 ^ x11; 
X13 = a5 ^ x5; 
X14 = x13 & x8; 
x15 = a5 & ~a4; 
X16 = x3 ^ x14; 
x17 = a6 | x16; 
X18 = x15 ^ x17; 
x19 = a2 | x18; 
X20 - x14 ^ x19; 
X21 = al & X20; 
X22 = x12 ^ -x21; 
*out2 A= x22; 
x23 = x1 | x5; 
X24 = x23 ^ x8; 
x25 - x18 & -x2; 
x26 = a2 & -x25; 
X27 = x24 ^ x26; 
x28 = x6 | x7; 
x29 = x28 ^ x25; 
X30 = x9 ^ x24; 


x6, 
x13, 
x21, 
x29, 
X37, 
x45, 
x53, 


XT, 

X14, 
x22, 
x30, 
x38, 
x46, 
x54, 


x8; 


x15, 
x23, 
x31, 
x39, 
x47, 
x55, 


x16; 
x24; 
x32; 
x40; 
x48; 
x56; 


x31 = x18 & -x30; 
X32 = a2 & X31; 
X33 = x29 ^ x32; 
X34 - a1 & x33; 
x35 - x27 ^ x34; 
*out4 ^- x35; 

X36 = a3 & X28; 
X37 = x18 & -x36; 
X38 = a2 | x3; 
X39 = x37 ^ x38; 
x40 = a3 | x31; 
X41 = x24 & -x3T; 
x42 = x41 | x3; 
X43 = x42 & ~a2; 
x44 = x40 ^ x43; 
x45 = al & -x44; 
x46 = x39 ^ -x45; 
*out1 A= x46; 

X47 = x33 & -x9; 
X48 = X47 ^ x39; 
x49 = x4 ^ x36; 
x50 = x49 & ~x5; 
x51 = x42 | x18; 
x52 = x51 ^ a5; 
x53 = a2 & -x52; 
X54 = x50 ^ x53; 
x55 = al | x54; 
x56 = x48 ^ ~x55; 


*out3 A= x56; 


这 儿 也 有 许多 本 地 变量 。 当 然 ， 并 不 是 所 有 的 这 些 都 存在 本 地 栈 上 “。 让 我 们 用 
MSVC2008 的 /Ox 选 项 来 编译 一 下 : 


清单 23.1 使 用 MSVC 2008 编 译 
PUBLIC si 


; Function compile flags: /Ogtpy 
_TEXT SEGMENT 


_x6$ = -20 ; size = 4 
_x3$ = -16 ; size = 4 
_xi$ = -12 ; size = 4 
_x8$ = -8 ; size = 4 
_x4$ = -4 ; size = 4 
_al$ = 8 ; size = 4 

_a2$ = 12 ; size = 4 
_a3$ = 16 ; size = 4 
_x33$ = 20 ; size = 4 
_x7$ = 20 ; size = 4 
_a4$ = 20 ; size = 4 
_a5$ = 24 ; size = 4 


tv326 = 28 ; size = 4 
_x36$ 28 ; size 4 
_x28$ = 28 ; size = 4 
_a6$ = 28 ; size = 4 
_outi$ = 32 ; size = 
_x24$ = 36 ; size = 4 


4 


_out2$ = 36 ; size = 4 
_out3$ = 40 ; size = 4 
_out4$ = 44 ; size = 4 


_si PROC 
sub esp, 20 ; 00000014H 
mov edx, DWORD PTR _ab$[esp+16] 
push ebx 
mov ebx, DWORD PTR _a4$[esp+20] 
push ebp 
push esi 
mov esi, DWORD PTR _a3$[esp+28] 
push edi 
mov edi, ebx 
not edi 
mov ebp, edi 
and edi, DWORD PTR  a5$[esp-*32] 
mov ecx, edx 
not ecx 
and ebp, esi 
mov eax, ecx 
and eax, esi 
and ecx, ebx 
mov DWORD PTR _xi$[esp+36], eax 
xor eax, ebx 
mov esi, ebp 
or esi, edx 
mov DWORD PTR _x4$[esp+36], esi 
and esi, DWORD PTR _a6$[esp+32] 
mov DWORD PTR _x7$[espt+32], ecx 
mov edx, esi 
xor edx, eax 
mov DWORD PTR _x6$[esp+36], edx 
mov edx, DWORD PTR _a3$[esp+32] 
xor edx, ebx 
mov ebx, esi 
xor ebx, DWORD PTR ab5$[esp-*32] 
mov DWORD PTR _x8$[esp+36], edx 
and ebx, edx 
mov ecx, edx 
mov edx, ebx 
xor edx, ebp 
or edx, DWORD PTR a6$[esp-*32] 
not ecx 
and ecx, DWORD PTR _a6$[esp+32] 
xor edx, edi 
mov edi, edx 
or edi, DWORD PTR _a2$[esp+32] 


mov DWORD PTR _x3$[esp+36], ebp 
mov ebp, DWORD PTR _a2$[esp+32] 
xor edi, ebx 

and edi, DWORD PTR _ai$[esp+32] 
mov ebx, ecx 

xor ebx, DWORD PTR _x7$[esp+32] 
not edi 

or ebx, ebp 

xor edi, ebx 

mov ebx, edi 

mov edi, DWORD PTR _out2$[esp+32] 
xor ebx, DWORD PTR [edi] 

not eax 

xor ebx, DWORD PTR _x6$[esp+36] 
and eax, edx 

mov DWORD PTR [edi], ebx 

mov ebx, DWORD PTR _x7$[esp+32] 
or ebx, DWORD PTR _x6$[esp+36 ] 
mov edi, esi 

or edi, DWORD PTR _x1$[esp+36] 
mov DWORD PTR _x28$[esp+32], ebx 
xor edi, DWORD PTR _x8$[esp+36] 
mov DWORD PTR _x24$[esp+32], edi 
xor edi, ecx 

not edi 

and edi, edx 

mov ebx, edi 

and ebx, ebp 

xor ebx, DWORD PTR _x28$[esp+32] 
xor ebx, eax 

not eax 

mov DWORD PTR _x33$[esp+32], ebx 
and ebx, DWORD PTR _ai$[esp+32] 
and eax, ebp 

xor eax, ebx 

mov ebx, DWORD PTR _out4$[esp+32] 
xor eax, DWORD PTR [ebx] 

xor eax, DWORD PTR _x24$[esp+32] 
mov DWORD PTR [ebx], eax 

mov eax, DWORD PTR _x28$[esp+32] 
and eax, DWORD PTR _a3$[espt+32] 
mov ebx, DWORD PTR _x3$[esp+36] 
or edi, DWORD PTR _a3$[esp+32] 
mov DWORD PTR _x36$[esp+32], eax 
not eax 

and eax, edx 

or ebx, ebp 

xor ebx, eax 

not eax 

and eax, DWORD PTR _x24$[esp+32] 
not ebp 

or eax, DWORD PTR _x3$[esp+36 ] 
not esi 


and ebp, eax 
or eax, edx 
xor eax, DWORD PTR _ab$[esp+32] 
mov edx, DWORD PTR _x36$[esp+32] 
xor edx, DWORD PTR _x4$[esp+36] 
xor ebp, edi 
mov edi, DWORD PTR _out1i$[esp+32] 
not eax 
and eax, DWORD PTR _a2$[esp+32] 
not ebp 
and ebp, DWORD PTR _ai$[esp+32] 
and edx, esi 
xor eax, edx 
or eax, DWORD PTR _ai$[esp+32] 
not ebp 
xor ebp, DWORD PTR [edi] 
not ecx 
and ecx, DWORD PTR _x33$[esp+32] 
xor ebp, ebx 
not eax 
mov DWORD PTR [edi], ebp 
xor eax, ecx 
mov ecx, DWORD PTR  out3$[esp-*32] 
xor eax, DWORD PTR [ecx] 
pop edi 
pop esi 
xor eax, ebx 
pop ebp 
mov DWORD PTR [ecx], eax 
pop ebx 
add esp, 20 ; 00000014H 
ret 0 
. S1 ENDP 


编译 器 在 本 地 栈 上 分 配 了 5 个 变量 。 现在 再 让 我 们 在 MSVC 2008 的 64 位 环境 中 试 一 
试 : 


清单 23.2 使 用 MSVC 2008 编 译 


al1$ 
a2$ 
a3$ 72 
a4$ 80 
x36$1$ = 88 
a5$ = 88 
a6$ = 


56 
64 


104 
112 
120 
128 


Hoi We IO 
Oo 


$LN3 : 

mov QWORD PTR [rsp+24], rbx 
mov QWORD PTR [rsp+32], rbp 
mov QWORD PTR [rsp+16], rdx 
mov QWORD PTR [rsp+8], rcx 
push rsi 

push rdi 

push r12 

push r13 

push r14 

push r15 

mov r15, QWORD PTR a5$[rsp] 
mov rcx, QWORD PTR a6$[rsp] 
mov rbp, r8 

mov r10, r9 

mov rax, r15 

mov rdx, rbp 

not rax 

xor rdx, r9 

not r10 

mov r11, rax 

and rax, r9 

mov rsi, r10 

mov QWORD PTR x36$1$[rsp], rax 
and r11, r8 

and rsi, r8 

and r10, r15 

mov r13, rdx 

mov rbx, r11 

xor rbx, r9 

mov r9, QWORD PTR a2$[rsp] 
mov r12, rsi 

or r12, r15 

not r13 

and r13, rcx 

mov r14, r12 

and r14, rcx 

mov rax, r14 

mov r8, r14 

xor r8, rbx 

xor rax, r15 

not rbx 

and rax, rdx 

mov rdi, rax 

xor rdi, rsi 

or rdi rex 

xor rdi, r10 

and rbx, rdi 

mov rcx, rdi 

or rcx, r9 

xor rcx, rax 

mov rax, r13 

xor rax, QWORD PTR x36$1$[rsp] 


and rcx, QWORD PTR ai$[rsp] 
or rax, r9 

not rcx 

xor rcx, rax 

mov rax, QWORD PTR out2$[rsp] 
xor rcx, QWORD PTR [rax] 

xor rcx, r8 

mov QWORD PTR [rax], rcx 

mov rax, QWORD PTR x36$1$[rsp] 
mov rcx, r14 

or rax, r8 

or rcx, rii 

mov r11, r9 

xor rcx, rdx 

mov QWORD PTR x36$1$[rsp], rax 
mov r8, rsi 

mov rdx, rcx 

xor rdx, r13 

not rdx 

and rdx, rdi 

mov r10, rdx 

and r10, r9 

xor r10, rax 

xor r10, rbx 

not rbx 

and rbx, r9 

mov rax, r10 

and rax, QWORD PTR ai$[rsp] 
xor rbx, rax 

mov rax, QWORD PTR out4$[rsp] 
xor rbx, QWORD PTR [rax] 

xor rbx, rcx 

mov QWORD PTR [rax], rbx 

mov rbx, QWORD PTR x36$1$[rsp] 
and rbx, rbp 

mov r9, rbx 


not r9 
and r9, rdi 
or r8, r11 


mov rax, QWORD PTR outi$[rsp] 
xor r8, r9 

not r9 

and r9, rcx 

or rdx, rbp 

mov rbp, QWORD PTR [rsp+80] 
or r9, rsi 

xor rbx, r12 

mov rcx, rit 

not rcx 

not r14 

not r13 

and rcx, r9 

or r9, rdi 


and rbx, r14 
xor r9, r15 
xor rcx, cx 
mov rdx, QWORD PTR ai$[rsp] 


not r9 
not rcx 
and r13, r10 
and r9, r11 


and rcx, rdx 
xor r9, rbx 
mov rbx, QWORD PTR [rsp+72] 
not rcx 
xor rcx, QWORD PTR [rax] 
or r9, rdx 
not r9 
xor rcx, r8 
mov QWORD PTR [rax], rcx 
mov rax, QWORD PTR out3$[rsp] 
xor r9, r13 
xor r9, QWORD PTR [rax] 
xor r9, r8 
mov QWORD PTR [rax], r9 
pop r15 
pop r14 
pop r13 
pop r12 
pop rdi 
pop rsi 
ret O 
s1 ENDP 


编译 器 在 栈 上 并 没有 分 配 任何 内 存 空间 ，Xx36 是 a5 的 同义词 。 顺带 一 提 ， 我 们 可 以 
在 这 儿 看 到 的 是 ， 郊 数 在 调用 者 空间 中 保存 了 RCX 和 RDX， 但 是 R8 和 R9 虽 然 在 一 
开始 就 使 用 了 ， 但 是 却 并 没有 保存 。 还 有 ， 还 有 拥有 更 多 GPR 的 CPU Hite 
Itanium (有 128 个 寄存 器 ) 。 


26.2 ARM 


在 ARM 中 ，64 位 指令 在 ARMv8 中 才 开 始 出 现 。 


26.3 F RAF 


见 24 章 以 了 解 更 多 的 X86-64 处 理 器 中 是 如 何 处 理 浮 点 数 的 。 


第 二 十 七 章 


使 用 SIMD 来 处 理 浮 点 数 


当然 ， 在 增加 了 Xx64 扩 展 这 个 特性 之 后 ，FPU 在 X86 兼 容 处 理 器 中 还 是 存在 的 。 但 是 
同事 ，SIMD 扩 展 (SSE, SSE2 等 ) 已 经 有 了 ， 他 们 也 可 以 处 理 浮 点 数 。 数 字 格 式 
依然 相同 (使 用 IEEE754 标 准 ) 。 


所 以 ，x86-64 编 译 器 通常 都 使 用 SIMD 指 令 。 可 以 说 这 是 一 个 好 消息 ， 因 为 这 让 我 
们 可 以 更 容易 的 使 用 他 们 。 
24.1 简单 的 例子 


double f (double a, double b) 


1 
return a/3.14 -* b*4.1; 
27.1.1 x64 


75 324.1: MSFC 2012 x64 /Ox 


__real@4010666666666666 DQ 04010666666666666r ; 4.1 
__real@40091eb851eb851F DQ 040091eb851eb851fr ; 3.14 


PROC 
divsd xmmO, QWORD PTR __real@40091eb851eb851F 
mulsd xmmi1, QWORD PTR __real@4010666666666666 
addsd xmmO, xmm1 
ret 0 

f ENDP 


输入 的 浮 点 数 被 传 入 了 XMM0-XMM3 寄 存 器 ， 其 他 的 通过 栈 来 传递 。a 被 传 入 了 
XMM0，b 则 是 通过 XMM1 © XMM 寄存 器 是 128 位 的 (可 以 参考 SIMD22 一 节 ) ， 但 
是 我 们 的 类 型 是 double 型 的 ， 也 就 意味 着 只 有 一 半 的 寄存 器 会 被 使 用 。 


DIVSD 是 一 个 SSE 指 令 ， 意 思 是 “Divide Scalar Double-Precision Floating-Point 
Values”( 除 以 标量 双 精 度 浮 点 数值 ) ， 它 只 是 把 一 个 double 除 以 另 一 个 double， 然 
后 把 结果 存在 操作 符 的 低 一 半 位 中 。 常量 会 被 编译 器 以 [EEE754 格 式 提前 编码 。 
MULSD 和 ADDSD 也 是 类 似 的 ， 只 不 过 一 个 是 乘法 ， 一 个 是 加 法 。 函数 处 理 double 
的 结果 将 保存 在 XMM0 寄 存 器 中 。 


这 是 无 优化 的 MSVC 编 译 器 的 结果 : 
清单 24.2 : MSVC 2012 x64 


__real@4010666666666666 DQ 04010666666666666r ; 4.1 
. realQ940091eb851eb851f DQ 040091eb851eb851fr ; 3.14 


a$ - 

b$ = 

f PROC 
movsdx QWORD PTR [rsp+16], xmmi 
movsdx QWORD PTR [rsp+8], xmmO 
movsdx xmmO, QWORD PTR a$[rsp] 


divsd xmmO, QWORD PTR _ real40091eb851eb851f 


movsdx xmmi, QWORD PTR b$[rsp] 


mulsd xmmi, QWORD PTR __real@4010666666666666 


addsd xmmO, xmm1 
ret 0 
f ENDP 


有 一 些 繁杂 ， 输 入 参数 保存 在 “shadow space" (ET 
一 半 的 寄存 器 ， 也 即 只 有 64 位 存 了 这 个 double 的 值 。 


27.1.2 X86 
GCC 编译 器 生成 了 几乎 一 样 的 代码 。 


24.2 通过 参数 传递 浮 点 型 变量 


Zinclude <math.h> 
Zinclude «stdio.h» 
int main () 


la] > 7.2.17) 


printf ("32.01 ^ 1.54 = %l1f\n", pow (32.01,1.54)); 


return 0; 


他 们 通过 XMM0-XMM3 的 低 一 半 寄 存 器 传递 。 
清单 24.3 : MSVC 2012 x64 /Ox 


$SG1354 DB '32.01 ^ 1.54 = %1f’, OaH, OOH 
__real@40400147ae147ae1 DQ 040400147ae147aeir ; 32.01 
__real@3ff8a3d70a3d70a4 DQ O3ff8a3d70a3d70a4r ; 1.54 
main PROC 

sub rsp, 40 ; 00000028H 

movsdx xmm1, QWORD PTR __real@3ff8a3d70a3d70a4 

movsdx xmmO, QWORD PTR __real@40400147ae147ae1 

call pow 

lea rcx, OFFSET FLAT: $SG1354 

movaps xmmi, xmmO 

movd rdx, xmmi 

call printf 

xor eax, eax 

add rsp, 40 ; 00000028H 

ret 0 
main ENDP 


在 Intel 和 AMD 的 手册 中 ( 见 14 章 和 1 章 ) 并 没有 MOVSDX 这 个 指令 ， 而 只 有 
MOVSD 一 个 。 所 以 在 x86 中 有 两 个 指令 共享 了 同一 个 名 字 ( 另 一 个 见 B.6.2) 。 显 
然 ， 微 软 的 开发 者 想 要 避免 弄 得 一 团 糟 ， 所 以 他 们 把 它 重 命名 为 MOVSDX， 它 只 是 
会 多 把 一 个 值 载 和 MM 寄存 器 的 低 一 半 中 。 pow () 函数 从 XMM0 和 XMM1 中 加 载 
参数 ， 然 后 返回 结果 到 XMM0 中 。 然后 把 值 移动 到 RDX 中 ， 因 为 接 下 来 printf() 需 要 
调用 这 个 函数 。 为 什么 ?了 老实 说 我 也 不 知道 ， 也 许 是 因为 printf() 是 一 个 参数 不 定 的 
函数 ? 


清单 24.4 : GCC 4.4.6 x64 -03 


MEC 
.String "32.01 ^ 1.54 = %1f\n" 
main: 
sub rsp, 8 
movsd xmmi, QWORD PTR .LCO[rip] 
movsd xmmO, QWORD PTR .LCi[rip] 
call pow 
; result is now in XMMO 
mov edi, OFFSET FLAT:.LC2 
mov eax, 1 ; number of vector registers passed 
call printf 
xor eax, eax 
add rsp, 8 
ret 
.LCO: 
.long 171798692 
.long 1073259479 
IET: 
.long 2920577761 
.long 1077936455 


GCC 让 结果 更 清晰 ，printf () 
printf() 才 把 1 写 入 EAX 中 的 例子 。3 
准 需求 一 样 ( 见 21 章 ) 。 


的 值 传 入 到 了 XMM0 中 。 顺 带 一 提 ， 这 是 一 个 因为 
文 意味 着 参数 会 被 传递 到 向 量 寄存 器 中 ， 就 像 标 


27.3 比较 式 的 例子 


double d max (double a, double b) 


if (a»b) 
return a; 
return b; 
J; 
27.3.1 x64 


清单 24.5 : MSVC 2012 x64 /Ox 


a$ = 8 
b$ = 16 
d max PROC 


comisd xmmO, xmm1 
ja SHORT $LN20d max 
movaps xmmO, xmm1 
$LN20d max: 
fatret 0 
d max ENDP 


优化 过 的 MSVC 产 生 了 很 容易 理解 的 代码 。 COMISD “Compare Scalar Ordered 
Double-Precision Floating-Point Values and Set EFLAGS" ( 比较 标量 双 精 度 浮 点 
数 的 值 然后 设置 EFLAG ) 的 缩写 ， 显 然 ， 看 着 名 字 就 知道 他 要 干 哈 了 。 非 优化 的 
MSVC 代 码 产 生 了 更 加 丰富 的 代码 ， 但 是 仍然 不 难 理解 : 


清单 24.6 : MSVC 2012 x64 


d_max PROC 
comisd xmmO, xmm1 
ja SHORT $LN20d max 
movaps xmmO, xmm1 
$LN20d max: 
fatret 0 

d max ENDP 


但 是 ，GCC 4.4.6 生 成 了 更 多 的 优化 代码 ， 并 且 使 用 了 MAXSD (“Return Maximum 
Scalar Double-Precision Floating-Point Value”， 返 回 最 大 的 双 精 度 浮 点 数 的 值 ) 指 
令 ， 它 将 选中 其 中 一 个 最 大 数 。 


清单 24.7 : GCC 4.4.6 x64 -O3 


a$ = 8 
b$ = 16 
d max PROC 


movsdx QWORD PTR [rsp+16], xmmi 
movsdx QWORD PTR [rsp+8], xmmO 
movsdx xmmO, QWORD PTR a$[rsp] 
comisd xmmO, QWORD PTR b$[rsp] 
jbe SHORT $LNi1Qd max 
movsdx xmmO, QWORD PTR a$[rsp] 
jmp SHORT $LN2Qd max 
$LN10d max: 
movsdx xmmO, QWORD PTR b$[rsp] 
$LN2@d_max: 
fatret 0 

d_max ENDP 


27.3.2 x86 


27.4 Calculating machine epsilon: x64 and SIMD 


27.5 回顾 伪 随 机 书生 成 器 


只 有 低 一 半 的 XMM 寄 存 器 会 被 使 用 ， 一 组 IEEE754 格 式 的 数字 也 会 被 存在 这 里 。 
显然 ， 所 有 的 指令 都 有 SD 后 组 (标量 双 精 度数 ) ， 这 些 操作 数 是 可 以 用 于 IEEE754 
浮 点 数 的 ， 他 们 存在 XMM 寄 存 器 的 低 64 位 中 。 比 FPU 更 简单 的 是 ， 显 然 SIMD 扩 展 
并 不 像 FPU 以 前 那么 混乱 ， 栈 寄存 器 模型 也 没 使 用 。 如果 你 像 试 着 将 例子 中 的 
double 替 换 成 float 的 话 ， 它 们 还 是 会 使 用 同样 的 指令 ， 但 是 后 组 是 SS (标量 单 精度 
数 ) ， 例 如 MOVSS，COMISS，ADDSS 等 等 。 标 量 (Scalar) 代表 着 SIMD 和 寄存 
器 会 包含 仅仅 一 个 值 ， 而 不 是 所 有 的 。 可 以 在 所 有 类 型 的 值 中 生效 的 指令 都 被 封 
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Part Ill 更 高 级 些 的 例子 


温度 转换 


另 一 个 在 初学 者 的 编程 书 中 常见 的 例子 是 温度 转换 程序 ， 例 如 将 华氏 度 转 为 摄氏 
度 ， 或 者 反 过 来 。 
我 也 添加 了 一 个 简单 的 错误 处 理 : 1) 我 们 应 该 检查 用 户 是 否 输入 了 正确 的 数字 


2) 我 们 应 该 检查 摄氏 度 是 否 低 于 -273“C， 因 为 这 比 绝对 零度 还 低 ， 学 校 物理 课 上 
的 东西 应 该 都 还 记得 。exit() 函 数 将 立即 终止 程序 ， 而 不 会 回 到 调用 者 函数 。 


35.1 整数 值 


#include <stdio.h> 
#include <stdlib.h> 
int main() 


{ 


HH 


int celsius, fahr; 

printf ("Enter temperature in Fahrenheit:\n"); 

if (scanf ("%d", &fahr)!-1) 

{ 
printf ("Error while parsing your input\n"); 
exit(0); 

J; 

celsius = 5 * (fahr-32) / 9; 

if (celsius<-273) 


printf ("Error: incorrect temperature!\n"); 
exit(0); 
}; 


printf ("Celsius: %d\n", celsius); 


35.1.1 MSVC 2012 x86 


清单 35.1 : MSVC 2012 x86 


$SG4228 DB 'Enter temperature in Fahrenheit:', OaH, OOH 
$SG4230 DB '96d', OOH 

$SG4231 DB 'Error while parsing your input’, OaH, OOH 
$SG4233 DB 'Error: incorrect temperature!', OaH, OOH 
$SG4234 DB 'Celsius: %d’, OaH, OOH 

_fahr$ = -4 ; size = 4 

_main PROC 


push ecx 
push esi 


mov esi, DWORD PTR __imp_ printf 
push OFFSET $564228 ; 'Enter temperature in Fahrenheit:"' 
call esi ; call printf() 
lea eax, DWORD PTR _fahr$[esp+12] 
push eax 
push OFFSET $SG4230 ; “%d 
call DWORD PTR . imp scanf 
add esp, 12 ; 0000000cH 
cmp eax, 1 
je SHORT $LN2@main 
push OFFSET $564231 ; 'Error while parsing your input’ 
call esi ; call printf() 
add esp, 4 
push 0 
call DWORD PTR imp exit 
$LN9Qmain: 
$LN2@main: 
mov eax, DWORD PTR _fahr$[esp+8] 
add eax, -32 ; ffffffeoH 
lea ecx, DWORD PTR [eax+eax*4] 
mov eax, 954437177 ; 38e38e39H 
imul ecx 
sar edx, 1 
mov eax, edx 
shr eax, 31 ; 0000001fH 
add eax, edx 
cmp eax, -273 ; fffffeefH 
jge SHORT $LN1@main 
push OFFSET $SG4233 ; ‘Error: incorrect temperature! ’ 
call esi ; call printf() 
add esp, 4 
push 0 
call DWORD PTR imp exit 
$LN10@main: 
$LN1@main: 
push eax 
push OFFSET $SG4234 ; ‘Celsius: %d’ 
call esi ; call printf() 
add esp, 8 
; return 0 - at least by C99 standard 
xor eax, eax 
pop esi 
pop ecx 
ret 0 
$LN8@main: 
_main ENDP 


关于 这 个 我 们 可 以 说 的 是 : 


e printf() 的 地 址 先 被 载 入 了 ESI 寄 存 嚣 中， 所 以 printf() 调 用 的 序列 会 被 CALL ESI 
处 理 ， 这 是 一 个 非常 著名 的 编译 器 技术 ， 当 代码 中 存在 多 个 序列 调用 同一 个 函 
数 的 时 候 ， 并 且 / 或 者 有 空闲 的 寄存 器 可 以 用 上 的 时 候 ， 编 译 器 就 会 这 么 做 。 


e 我 们 知道 ADD EAX,-32 指 令 会 把 EAX 中 的 数据 减 去 32。 EAX = EAX + (-32) 等 
同 于 EAX = EAX - 32， 因 此 编译 器 决定 用 ADD 而 不 是 用 SUB， 也 许 这 样 性 能 
比较 高 吧 。 

e LEAH 4 令 在 值 应 当 乘 以 5 的 时 候 用 到 了 : lea ecx, DWORD PTR [eax+eax4] » 
是 的 ,1+14 是 等 同 于 i*5 的 ， 而 且 LEA 比 IMUL 运 行 的 要 快 。 还 有 ，SHL 
EAX,2/ ADD EAX,EAX 指 令 对 也 可 以 替换 这 多， 而 且 有 些 编译 器 就 是 会 这 么 优 
化 。 

e 用 乘法 做 除法 的 技巧 也 会 在 这 儿 用 上 。 

e 虽然 我 们 没有 指定 ， 但 是 main() 有 函数 依然 会 返回 0。C99 规 范 告诉 我 们 [15 章 ， 
5.1.2.2.3] main() 将 在 没有 return 时 也 会 昭 、 这 个 规则 仅仅 对 main() 函 
数 有 效 。 虽然 MSVC 并 不 支持 C99， 但 是 这 么 看 说 不 好 他 还 是 做 到 了 一 部 分 
呢 ? 


35.1.2 MSVC 2012 x64 /Ox 
生成 的 代码 几乎 一 样 ， 但 是 我 发 现 每 个 exit() 调 用 之 后 都 有 INT 3。 


XOr ecx, ecx 
call QWORD PTR A imp exit 
int 3 


INT 3 是 一 个 调试 器 断 点 。 oe a ete 函数 之 一 。 所 以 
如 果 他 “返回 "了 ， 那 么 估计 发 生 了 什么 奇怪 的 事情 ， 也 是 时 候 局 动 调试 器 了 。 


35.2 浮 点 数值 


清单 35.1: MSVC 2010 


Zinclude «stdio.h» 
Zinclude <stdlib.h> 
int main() 


{ 
double celsius, fahr; 
printf ("Enter temperature in Fahrenheit:\n"); 
if (scanf ("%lf", &fahr) !=1) 
printf ("Error while parsing your input\n"); 
exit(0); 
J; 
celsius = 5 * (fahr-32) / 9; 
if (celsius<-273) 
{ 
printf ("Error: incorrect temperature!\n"); 
exit(0); 
H 
printf ("Celsius: %lf\n", celsius); 
J; 


MSVC 2010 x864} M FPU} S... 
清单 35.2: MSVC 2010 x86 /Ox 


$SG4038 DB 'Enter temperature in Fahrenheit:', OaH, OOH 
$SG4040 DB '%1f’, OOH 
$SG4041 DB “Error while parsing your input’, OaH, OOH 
$SG4043 DB ‘Error: incorrect temperature!’, OaH, OOH 
$SG4044 DB 'Celsius: 9*lf', OaH, OOH 
. real8c071100000000000 DQ 0c071100000000000r ; -273 
__real@4022000000000000 DQ 04022000000000000r ; 
__real@4014000000000000 DQ 04014000000000000r ; 5 
__real@4040000000000000 DQ 04040000000000000r ; 
_fahr$ = -8 ; size = 8 
_main PROC 

sub esp, 8 

push esi 

mov esi, DWORD PTR A imp printf 

push OFFSET $SG4038 ; 'Enter temperature in Fahrenheit:"' 

call esi ; call printf 

lea eax, DWORD PTR fahr$[esp-*16] 

push eax 

push OFFSET $SG4040 ; ‘%1T’ 

call DWORD PTR . imp scanf 

add esp, 12 ; 0000000cH 

cmp eax, 1 

je SHORT $LN2Qmain 

push OFFSET $SG4041 ; 'Error while parsing your input’ 

call esi ; call printf 

add esp, 4 

push 0 


call DWORD PTR imp exit 
$LN2@main: 
fld QWORD PTR _fahr$[espt+12] 


fsub QWORD PTR __real@4040000000000000 ; 32 


fmul QWORD PTR __real@4014000000000000 ; 5 
fdiv QWORD PTR __real@4022000000000000 ; 9 


fld QWORD PTR __real@c071100000000000 ; -273 


fcomp ST(1) 

fnstsw ax 

test ah, 65 ; 00000041H 
jne SHORT $LNi1Qmain 


push OFFSET $564043 ; 'Error: incorrect temperature!’ 


fstp ST(0) 
call esi ; call printf 
add esp, 4 
push 0 
call DWORD PTR imp exit 
$LN1Qmain: 
sub esp, 8 
fstp QWORD PTR [esp] 
push OFFSET $SG4044 ; 'Celsius: 9Wf' 
call esi 
add esp, 12 ; 0000000cH 
; return 0 
xor eax, eax 
pop esi 
add esp, 8 
ret 0 
$LN10@main: 
_main ENDP 


但 是 MSVC 从 2012 年 开始 又 改 成 了 使 用 SIMD 指 令 : 
清单 35.3: MSVC 2010 x86 /Ox 


$SG4228 DB “Enter temperature in Fahrenheit:’, OaH, OOH 


$SG4230 DB ’%1f’, OOH 


$SG4231 DB 'Error while parsing your input’, OaH, OOH 


$SG4233 DB ‘Error: incorrect temperature!', QOaH, 


$5G4234 DB 'Celsius: *lf', OaH, OOH 
__real@c071100000000000 DQ 0c071100000000000r ; 
__real@4040000000000000 DQ 04040000000000000r ; 
__real@4022000000000000 DQ 04022000000000000r ; 
__real@4014000000000000 DQ 04014000000000000r ; 
_fahr$ = -8 ; size = 8 
_main PROC 

sub esp, 8 

push esi 

mov esi, DWORD PTR A imp printf 

push OFFSET $SG4228 ; 'Enter temperature in 

call esi ; call printf 


00H 


-273 
32 

9 

5 


Fahrenheit: ’ 


lea eax, DWORD PTR _fahr$[esp+16] 

push eax 

push OFFSET $SG4230 ; “9%J 

call DWORD PTR . imp scanf 

add esp, 12 ; 0000000cH 

cmp eax, 1 

je SHORT $LN2Qmain 

push OFFSET $564231 ; 'Error while parsing your input’ 
call esi ; call printf 

add esp, 4 

push 0 

call DWORD PTR imp exit 

$LN9Qmain: 

$LN2@main: 

movsd xmmi, QWORD PTR _fahr$[esp+12] 

subsd xmmi, QWORD PTR __real@4040000000000000 ; 32 


, 
movsd xmmO, QWORD PTR — realc071100000000000 ; -273 
mulsd xmmi, QWORD PTR __real@4014000000000000 ; 5 
divsd xmm1, QWORD PTR __real@4022000000000000 ; 9 


comisd xmmO, xmm1 
jbe SHORT $LNi1Qmain 
push OFFSET $SG4233 ; 'Error: incorrect temperature!’ 
call esi ; call printf 
add esp, 4 
push 0 
call DWORD PTR imp exit 
$LN10@main: 
$LN1@main: 
sub esp, 8 
movsd QWORD PTR [esp], xmmi 
push OFFSET $SG4234 ; ‘Celsius: %l1f’ 
call esi ; call printf 
add esp, 12 ; 0000000cH 
; return 0 
xor eax, eax 
pop esi 
add esp, 8 
ret 0 

$LN8@main: 

_main ENDP 


当然 ，SIMD 在 Xx86 下 也 是 可 用 的 ， 包 括 这 些 浮 点 数 的 运算 。 使 用 他 们 计算 起 来 也 确 
实 方 便 点 ， 所 以 微软 编译 器 使 用 了 他 们 。 我 们 也 可 以 注意 到 -273 这 个 值 会 很 早 的 
被 载 入 XMM0。 这 个 没 问题 ， 因 为 编译 器 并 不 一 定 会 按照 源 代码 里 面 的 顺序 产生 代 
码 。 


Fy oe 


裴 波 那 契 数列 


另 一 个 在 编程 教材 中 普遍 使 用 的 例子 是 ， 一 个 用 来 生成 辈 波 那 如 数列 的 递归 函数 。 


这 个 序列 非常 简单 : 每 个 数字 都 是 前 面 两 个 数字 的 和 。 打 头 的 两 个 数字 都 是 1 或 者 
是 0,1,1。 


该 序列 起 始 是 这 样 的 : 
0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597, 2584, 4181... 


36.1 例 一 
这 个 实现 起 来 比较 简单 。 下 面 这 个 程序 产生 直到 21 的 序列 。 


#include «stdio.h» 
void fib (int a, int b, int limit) 


printf ("%d\n", a+b); 
if (atb > limit) 
return; 
fib (b, a+b, limit); 
3 
int main() 
printf ("O\n1\n1i\n"); 


fib (1, 1, 20); 
He 


Listing 36.1: MSVC 2010 x86 


_a$ = 8 ; size = 4 

_b$ = 12 ; size = 4 

_limit$ = 16 sizes 

_fib PROC 
push ebp 
mov ebp, esp 
mov eax, DWORD PTR _a$[ebp] 
add eax, DWORD PTR _b$[ebp] 
push eax 


push OFFSET $SG2643 
call DWORD PTR _ imp printf 


add esp, 8 
mov ecx, DWORD PTR _a$[ebp] 
add ecx, DWORD PTR _b$[ebp] 
cmp ecx, DWORD PTR _limit$[ebp] 
jle SHORT $LN1@fib 
jmp SHORT $LN2@fib 
$LN1@Fib: 
mov edx, DWORD PTR _limit$[ebp] 
push edx 
mov eax, DWORD PTR _a$[ebp] 
add eax, DWORD PTR  b$[ebp] 
push eax 
mov ecx, DWORD PTR _b$[ebp] 
push ecx 
call fib 
add esp, 12 
$LN2@Fib: 
pop ebp 
ret 0 
_fib ENDP 
_main PROC 
push ebp 
mov ebp, esp 


push OFFSET $SG2647 
call DWORD PTR _ imp _ printf 


add esp, 4 
push 20 
push 1 
push 1 
call _fib 
add esp, 12 
xor eax, eax 
pop ebp 
ret 0 

_main ENDP 


我 们 将 用 这 个 来 说 明 一 下 栈 帧 。 
让 我 们 在 OllyDbg 中 加 载 这 个 例子 ， 并 且 跟 踪 到 最 后 一 次 对 f() 函数 的 调用 : 


辈 波 那 契 数列 


B 


prnpr 


ANANA 


handler 


E 
i 
2 
LI 
B 
: 
i 
2 
- 
*- 
o 
= 


[aen to nent SEM record 


a oak 
323232222322322232222322223322232222322233323 
上 33733333223233223223232372232322323233223333233233 


E:355,882223232823232322832238238235222223223332358 


15-99322822322233523222223222923222322232392333325 


Bei 98222828222222882382229225238232922822823239288 


S269222922222222222222222222222222222292222228 
5682722222222322292222223222292229222322922822 





图 36.1: OllyDbg: 最 后 一 次 对 f() 的 调用 


注释 (在 这 个 例子 


此 


一 一 


向 其 中 加 了 
切 板 中 (Ctrl-C) ) 


剪 


让 我 们 来 更 加 仔细 地 研究 一 下 栈 。 本 书 的 作者 


中 ， 就 是 把 OllyDbg 中 的 多 个 条 目 copy 到 


340 


0035F940 
0035F944 
0035F948 
0035F94C 
0035F950 
0035F954 
0035F958 
0035F95C 
0035F960 
0035F964 
0035F968 
0035F96C 
0035F970 
0035F974 
0035F978 
0035F97C 
0035F980 
0035F984 
0035F988 
0035F98C 
0035F990 
0035F994 
0035F998 
0035F99C 
0035F9A0 
0035F9AA4 
0035F9A8 
0035F9AC 


00FD1039 
00000008 
0000000D 
00000014 
/0035F964 
| 00FD1039 
|00000005 
| 00000008 
|00000014 
]0035F978 
| 00FD1039 
|00000003 
|00000005 
|00000014 
]0035F98C 
| 00FD1039 
|00000002 
|00000003 
|00000014 
]0035F9A0 
| 00FD1039 
|00000001 
|00000002 
|00000014 
]0035F9B4 
| 00FD105C 
|00000001 
|00000001 


) for f1() 


0035F9B0 
0035F9B4 
0035F9B8 
0035F9BC 
0035F9C0 


or main() 


0035F9C4 


|00000014 
]0035F9F8 
| 00FD11D0 
|00000001 
|006812C8 


|00682940 


RETURN to fib.00FD1039 
1st argument: a 

2nd argument: b 

3rd argument: limit 
saved EBP register 
RETURN to fib.00FD1039 
1st argument: a 

2nd argument: b 

3rd argument: limit 
saved EBP register 
RETURN to fib.00FD1039 
1st argument: a 

2nd argument: b 

3rd argument: limit 
saved EBP register 
RETURN to fib.00FD1039 
1st argument: a 

2nd argument: b 

3rd argument: limit 
saved EBP register 
RETURN to fib.00FD1039 
1st argument: a 

2nd argument: b 

3rd argument: limit 
saved EBP register 
RETURN to fib.O0O0FD105C 
1st argument: a 

2nd argument: b 


3rd argument: limit 
saved EBP register 
RETURN to fib.O0O0FD11DO 


from 


from 


from 


from 


from 


/ 


from 


main() 1st argument: argc \ 
main() 2nd argument: argv | 


main() 3rd argument: envp / 


fib.00FD1000 


fib.00FD1000 


fib.00FD1000 


fib.00FD1000 


fib.00FD1000 


fib.00FD1000 


prepared in main( 


fib.00FD1040 


prepared in CRT f 


该 函数 是 递归 的 ， 因 此 看 起 来 就 像 个 三 明治 "。 我 们 能 够 看 出 参数 limit 总 是 相同 的 


(0x14 或 20) 


， 但 是 参数 a 和 b 在 每 次 调用 时 都 是 不 同 的 


。 其 中 也 有 RA (Return 


Address， 返 回 地 址 ) 和 保存 的 EBP 值 。OllyDbg 可 以 决定 基于 EBP 的 帧 ， 所 以 就 画 
出 了 这 些 中 括号 (]) 。 每 个 中 括号 中 的 值 构成 了 栈 帧 ， 换 句 话 说， 每 一 个 函数 都 使 
用 栈 来 作为 暂 存 空间 。 我 们 也 可 以 说 每 一 个 函数 都 不 能 访问 超出 其 帧 边界 的 栈 元 素 


〈 不 包括 函数 参数 ) 


， 虽然 这 在 技术 上 是 有 可 能 的 。 上 一 句 话 通常 是 正确 的 ， 除 非 


函数 中 有 了 bug。 每 个 保存 的 EBP 值 为 前 一 栈 帧 的 地 址 : 这 就 是 有 些 调试 器 可 以 很 


容易 地 划分 在 帧 中 的 栈 和 dump 每 个 函数 参数 的 原因 。 


正如 我 们 在 这 里 所 见 ， 每 一 个 函数 都 为 下 一 个 函数 调用 准备 好 了 参数 。 


人 


每 


在 最 后 有 用 于 main() 函数 的 三 个 参数 。argc 值 为 1 (是 的 ， 我 们 确实 没有 用 命令 
行 参数 来 运行 程序 ) 。 


这 样 很 容 多 导致 栈 溢出 : 只 是 删除 (或 注释 ) 掉 limit 检 测 ， 程 序 就 会 抛 出 
0xC00000FD 异 常 而 崩溃 (stack overflow) 。 


36.2 例 二 


我 构造 的 函数 有 些 宛 余 ， 所 以 就 让 我 们 来 添加 一 个 局 部 变量 next 并 用 它 代 蔡 所 有 
的 "a+b" s 


#include <stdio.h> 
void fib (int a, int b, int limit) 


{ 
int next=a+b; 
printf ("%d\n", next); 
if (next > limit) 
return; 
fib (b, next, limit); 
ti 
int main() 
{ 
printf ("OO\ni\ni\n"); 
fib (1, 1, 20); 
ha 


以 下 的 输出 是 MSVC 非 优化 编译 的 输出 ， 所 以 next 变 量 在 局 部 栈 中 分 配 空间 。 


 next$ = 
_a$ = 8 
_b$ = 12 
 limit$ 
_fib 
push 
mov 
push 
mov 
add 
mov 
mov 
push 
push 
call 
add 
mov 
cmp 
jle 
jmp 


-4 


= 16 
PROC 


$LN1@fib: 


mov 
push 
mov 
push 
mov 
push 
call 
add 


$LN2@fib: 


mov 

pop 

ret 
_fib 


_main 
push 
mov 
push 
call 
add 
push 
push 
push 
call 
add 
xor 
pop 
ret 

_main 


ENDP 


PROC 


END 


; size = 4 
; size = 4 
; size = 4 
; size = 4 

ebp 

ebp, esp 

ecx 


eax, DWORD PTR  a$[ebp] 
eax, DWORD PTR  b$[ebp] 
DWORD PTR _next$[ebp], eax 
ecx, DWORD PTR next$[ebp] 
ecx 

OFFSET $SG2751 ; '%d' 
DWORD PTR imp printf 
esp, 8 

edx, DWORD PTR _next$[ebp] 
edx, DWORD PTR _limit$[ebp] 
SHORT $LN1@fib 

SHORT $LN2@fib 


eax, DWORD PTR _limit$[ebp] 
eax 

ecx, DWORD PTR _next$[ebp] 
ecx 

edx, DWORD PTR  b$[ebp] 

edx 


_fib 


esp, 12 


esp, ebp 
ebp 
0 


ebp 

ebp, esp 

OFFSET $SG2753 ; "O\ni\ni\n" 
DWORD PTR __imp__ printf 

esp, 4 


0 
P 


= jk AB 32 HF 


让 我 再 一 次 加 载 OllyDbg : 


S eae? neucRlee.eFeesel7 


1$ 


Hn tni 5 ; 
seses 3 


w QGGev-oo OANA AN: 


RETURN to fib2,00€01098 from ¢ ib2, 00€010 
| RETURN to fib2.00€01038 from f ib2. 00€0100« 


1 
! 
1 
2 


p 


NOU ECX,OWORD PTR SS:(EBP-4) 
PUSH ECX 


è Ezz t8K52532322322282282222352328222322223235232388258 
| 1127152282322222222222522222222523232225222223825 





图 36.2: OllyDbg: 最 后 一 次 对 f() 调用 
现在 next 变 量 就 出 现在 每 一 个 帧 中 。 


注释 : 


其 中 加 了 他 的 


向 


让 我 们 来 更 加 仔细 地 研究 一 下 栈 。 作 者 也 
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0029FC14 
0029FC18 
0029FC1C 
0029FC20 
0029FC24 
0029FC28 
0029FC2C 
0029FC30 
0029FC34 
0029FC38 
0029FC3C 
0029FC40 
0029FC44 
0029FC48 
0029FC4C 
0029FC50 
0029FC54 
0029FC58 
0029FC5C 
0029FC60 
0029FC64 
0029FC68 
0029FC6C 
0029FC70 
0029FC74 
0029FC78 
0029FC7C 
for next 
0029FC80 
0029FC84 
0029FC88 
0029FC8C 
0029FC90 
0029FC94 


00E0103A 
00000008 
0000000D 
00000014 
0000000D 
/0029FC40 
| 00E0103A 
|00000005 
|00000008 
|00000014 
| 00000008 
]0029FC58 
|00E0103A 
[00000003 
[00000005 
[00000014 
[00000005 
]0029FC70 
| 00E0103A 
|00000002 
|00000003 
|00000014 
|00000003 
]0029FC88 
| 00E0103A 
00000001 
[00000002 
f1() 

|00000014 
|00000002 
]0029Fc9C 
| 00E0106C 
|00000001 
|00000001 


) for f1() 


0029FC98 
0029FC9C 
0029FCAO0 
0029FCAA 
0029FCA8 


or main() 


0029FCAC 


2 


d 


36.3 & 


[00000014 
]0029FCEO 
| 00E011E0 
|00000001 
|000812C8 


|00082940 


结 


RETURN to fib2.00E0103A from fib2.00E01000 


1st argument: a 
2nd argument: b 
3rd argument: limit 
"next" variable 
saved EBP register 


RETURN to fib2.00E0103A from fib2.00E01000 


1st argument: a 
2nd argument: b 
3rd argument: limit 
"next" variable 
saved EBP register 


RETURN to fib2.00E0103A from fib2.00E01000 


1st argument: a 
2nd argument: b 
3rd argument: limit 
"next" variable 
saved EBP register 


RETURN to fib2.00E0103A from fib2.00E01000 


1st argument: a 
2nd argument: b 
3rd argument: limit 
"next" variable 
saved EBP register 


RETURN to fib2.00E0103A from fib2.00E01000 


1st argument: a 
2nd argument: b 


3rd argument: limit 
"next" variable 

saved EBP register 
RETURN to fib2.00E0106C 
1st argument: a 

2nd argument: b 


3rd argument: limit 
saved EBP register 


N 


| prepared in f1() 


/ 


from fib2.00E01000 


\ 


| prepared in main( 


/ 


RETURN to fib2.00E011E0 from fib2.00E01050 
main() 1st argument: argc \ 


main() 2nd argument: argv | 


main() 3rd argument: envp / 


在 这 里 我 们 可 以 看 出 : next 的 值 在 每 次 函数 调用 时 都 被 计算 一 遍 ， 然 后 将 其 
数 b 传 递 给 下 一 个 函数 。 


prepared in CRT f 


递归 函数 看 起 来 很 nice， 但 是 因为 它们 对 栈 的 笨重 用 法 在 技术 上 可 能 会 降低 性 能 。 
所 以 在 写 有 关 性 能 的 关键 代码 时 应 该 要 避免 使 用 递归 。 

例如 ， 本 书 的 作者 曾经 写 过 一 个 在 二 又 树 中 搜寻 特定 节点 的 函数 。 使 用 递归 函数 看 
起 来 很 优雅 ， 但 是 因为 在 每 次 函数 调用 的 开头 和 结尾 会 花费 额外 的 时 间 ， 它 就 比 使 
用 迭代 (不 用 递归 ) 的 情况 慢 好 几 倍 。 


By the way » 3x =—2£ AAPL (Programming language > #4274 & > LISP, 
Python, Lua) 编译 器 (其 中 大 量 使 用 递归 ) 使 用 tail call 的 原因 。 


第 三 十 七 训 


CRC32 哈 希 散 列 计算 例子 
这 是 非常 流行 的 CRC32 哈 希 散 列 计算 。 


/* By Bob Jenkins, (c) 2006, Public Domain */ 
#include <stdio.h> 
#include <stddef.h> 
#include <string.h> 
typedef unsigned long ub4; 
typedef unsigned char ub1; 
static const ub4 crctab[256] = { 

0x00000000, 0x77073096, Oxee0e612c, 0x990951ba, 0x076dc419, 
0x706af48f, 

0xe963a535, 0x9e6495a3, 0x0edb8832, Ox79dcb8a4, OxeOd5e91e, 
0x97d2d988, 

0x09b64c2b, Ox7ebi7cbd, Oxe7b82d07, Ox90bfid91, Ox1db71064, 
0x6ab020f2, 

Oxf3b97148, Ox84be4ide, Ox1adad47d, Ox6ddde4eb, Oxf4d4b551, 
0x83d385c7, 

0x136c9856, 0x646ba8c0, Oxfd62f97a, Ox8a65c9ec, Ox14015c4f, 
0x63066cd9, 

OxfaO0f3d63, O0x8d080df5, Ox3b6e20c8, Ox4c69105e, Oxd56041e4, 
0xa2677172, 

Ox3c03e4d1, 0x4b04d447, Oxd20d85fd, Oxa50ab56b, Ox35b5a8fa, 
0x42b2986c, 

Oxdbbbc9d6, Oxacbcf940, Ox32d86ce3, Ox45df5c75, Oxdcd6odcf, 
Oxabd13d59, 

0x26d930ac, 0x51de003a, 0xc8d75180, Oxbfd06116, Ox21b4f4b5, 
0x56b3c423, 

Oxcfba9599, Oxb8bda50f, 0x2802b89e, Ox5f058808, Oxc60cd9b2, 
@xb10be924, 

Ox2f6f7c87, Ox58684c11, Oxci611dab, Oxb6662d3d, 0x76dc4190, 
0x01db7106, 

0x98d220bc, Oxefd5102a, 0x71b18589, OxO06b6b51f, Ox9fbfe4a5, 
0xe8b8d433, 

0x7807c9a2, OxOfOOf934, 0x9609a888e, 0xe10e9818, Ox7f6a0dbb, 
0x086d3d2d, 

0x91646c97, Oxe6635c01, Ox6b6b51F4, Oxic6c6162, 0x8565304d8, 
Oxf262004e, 

0x6c0695ed, Oxib01a57b, Ox8208f4c1, Oxf50fc457, Ox65b0d9c6, 
0x12b7e950, 

Ox8bbeb8ea, Oxfcb9887c, Ox62ddiddf, Oxi5da2d49, Ox8cd37cf3, 
Oxfbd44c65, 

0x4db26158, Ox3ab551ce, Oxa3bc0074, Oxd4bb30e2, Ox4adfa541, 
0x3dd895d7, 

Oxa4dic46d, Oxd3d6f4fb, Ox4369e96a, Ox346ed9fc, 0xad678846, 


Oxda60b8d0, 
0x44042d73, 
0x270241aa, 
0xbe0b1010, 
Oxce61e49f, 
Ox5edef90e, 
Ox2eb40d81, 
Oxb7bd5c3b, 
0x74b1d29a, 
0xead54739, 
0x94643b84, 
0xO0d6d6a3e, 
0x7d079eb1, 
Oxf00f9344, 
0x806567cb, 
0x196c3671, 
0x67dd4acc, 
Oxf9bo9dfef, 
0xa1d1937e, 
0x38d8c2c4, 
0x48b2364b, 
0xd80d2bda, 
0xa867df55, 
0x316e8eef, 
0x5268e236, 
Oxcc0c7795, 
Oxb2bd0b28, 
Ox2bb45a92, 
Ox5bdeae1id, 
Ox9b64c2b0, 
Oxeb0e363f, 
0x72076785, 
0x0cb61b38, 
0x92d28e9b, 
Oxfi1d4e242, 
0x68ddb3f8, 
0x18b74777, 
0x88085ae6, 
Oxf862ae69, 
Ox616bffd3, 
0x3903b3c2, 
0xa7672661, 
Oxd9d65adc, 
Ox40dfOb66, 
Ox30b5ffe9, 
Oxbdbdf21c, 
0xcdd70693, 
0x54de5729, 
0x2a6f2b94, 
0xb40bbe37, 


=y 


0x33031de5, 
0xc90c2086, 
0x29d9c998, 
@xcOba6cad, 
@x9dd277af, 
0x7a6a5aa8, 
0x8708a3d2, 
0x6e6b06e7, 
Ox8ebeeff9, 
Ox4fdff252, 
Oxaf0a1b4c, 
0x4669be79, 
Oxbb0b4703, 
0x5cb36a904, 
0xec63f226, 
0x05005713, 
@xe5d5be0d, 
Oxifda836e, 
OxffOf6a70, 
0Ox166ccf45, 
0xd06016f7, 
0x37d83bf0, 
Oxcabac28a, 
0x23d967bf, 


Oxc30c8eal, 


how to derive the values 


0xaa0a4cbf, 
0x5768b525, 
0xb0d09822, 
Oxedb88320, 
0x04db2615, 
Oxe40ecfOb, 
Ox1e01f268, 
Oxfed41b76, 
Ox17b7be43, 
Oxdibb67f1, 
0x36034af6, 
Oxcb61b38c, 
0x220216b9, 
Oxc2d7ffa7, 
0x756aa39c, 
Ox95bf4a82, 
Ox7cdcefb7, 
Ox81bei6cd, 
0x66063bca, 
0xa900ae278, 
0x4969474d, 
Oxa9bcae53, 
0x53b39330, 
0xb3667a2e, 


0x5a05dfib, 


in crctab[] 


OxddOd7cc9, 0x5005713c, 


0x206f85b3, Oxb966d409, 
Oxc7d7a8b4, 0x59b33d17, 
Ox9abfb3b6, OxO3b6e20c, 
0x73dc1683, 0xe3630b12, 
0Ox9309ff9d, 0x0a00ae27, 
0x6906c2fe, Oxf762575d, 
0x89d32be0, 0x10da7a5a, 
0x60b08ed5, Oxd6d6a3e8, 
0xa6bc5767, Ox3fb506dd, 
0x41047a60, Oxdf60efc3, 
Oxbc66831a, Ox256fd2a0, 
0x5505262f, Oxc5ba3bbe, 
Oxb5dOcf31, Ox2cd99e8b, 
0x026d930a, 0x9c0906a9, 
Oxe2b87a14, Ox7bbi2bae, 
OxObdbdf21, Ox86d3d2d4, 
Oxf6b9265b, Ox6fbO77e1, 
0x11010b5c, Ox8f659eff, 
Oxd70dd2ee, 0x4e048354, 
0x3e6e77db, Oxaedi6a4a, 
Oxdebb9ec5, Ox47b2cf7f, 
0x24b4a3a6, Oxbad03605, 
0xc4614ab8, 0x5d681b02, 
Ox2d02ef8d, 


from polynomial 0xedb883 


void build table() 


1 

ub4 i, j; 

for (i=0; i<256; ++i) { 
j-7i 
j = (j»»1) ^ ((j&1) ? Oxedb88320 : 0); 
j = (j»»1) ^ ((j&1) ? Oxedb88320 : 0); 
j = (j»»1) ^ ((j&1) ? Oxedb88320 : 0); 
j = (j»»1) ^ ((j&1) ? Oxedb88320 : 0); 
j = (j»»1) ^ ((j&1) ? Oxedb88320 : 0); 
j = (j»»1) ^ ((j&1) ? Oxedb88320 : 0); 
j = (j»»1) ^ ((j&1) ? Oxedb88320 : 0); 
j = (j»»1) ^ ((j&1) ? Oxedb88320 : 0); 
printf("0x%.81x, ", j); 
if (i%6 == 5) printf(""); 


} 


/* the hash function */ 
ub4 crc(const void *key, ub4 len, ub4 hash) 


{ 
ub4 i; 
const ubi *k = key; 
for (hash-len, i-0; i<len; ++i) 
hash = (hash >> 8) ^ crctab[(hash & Oxff) ^ k[i]]; 
return hash; 
} 


Jc TO USe EV Cc 0 CNC OCH CCS<ECRCSCO 
int main() 


char s[1000]; 
while (gets(s)) printf("%.81x", crc(s, strlen(s), 0)); 
return 0; 


我 们 只 关心 crc() 函 数 。 注 意 for() 语 多 两 个 循环 初始 化 : hash=len,i=0。 标 准 
C/C++ 允 许 这 样 做 。 循 环 体内 通常 需要 使 用 两 个 初始 化 部 分 。 让 我 们 用 MSVC 优 化 
(JOx) 。 为 了 简洁 ， 仅 列 出 crc() 函 数 的 代码 ， 包 括 我 做 的 注释 。 


key$ = 8 ; size = 4 


_len$ = 12 TSize = 4 
_hash$ = 16 quse 
.Ccrc PROC 
mov edx, DWORD PTR _len$[esp-4] 
xor ecx, ecx ; i will be stored in ECX 
mov eax, edx 
test edx, edx 
jbe SHORT $LN1@crc 
push ebx 
push esi 
mov esi, DWORD PTR _key$[esp+4] ; ESI = key 
push edi 
$LL3@crc: 


; work with bytes using only 32-bit registers. byte from address 
key+i we store into EDI 


movzx edi, BYTE PTR [ecxt+esi] 

mov ebx, eax ; EBX - (hash - len) 

and ebx, 255 ; EBX - hash & Oxff 
; XOR EDI, EBX (EDI-EDI^EBX) - this operation uses all 32 bits o 
f each register 
; but other bits (8-31) are cleared all time, so it's OK 
; these are cleared because, as for EDI, it was done by MOVZX in 
struction above 
; high bits of EBX was cleared by AND EBX, 255 instruction above 

(255 = Oxff) 


xor edi, ebx 
; EAX=EAX>>8; bits 24-31 taken "from nowhere" will be cleared 
shr eax, 8 


; EAX-EAX^crctab[EDI*4] - choose EDI-th element from crctab[] ta 
ble 


xor eax, DWORD PTR crctab[edi*4] 
inc ecx SEDE 
cmp ecx, edx ; i«len ? 
jb SHORT $LL3@crc ; yes 
pop edi 
pop esi 
pop ebx 
$LN1@crc: 
ret 0 
_Crc ENDP 


我 们 来 看 GCC 4.4.1 优 化 后 的 代码 : 


public crc 


crc proc near 
key = dword ptr 8 
hash = dword ptr OCh 
push ebp 
xor edx, edx 
mov ebp, esp 
push esi 
mov esi, [ebp+key] 
push ebx 
mov ebx, [ebp+hash] 
test ebx, ebx 
mov eax, ebx 
jz short loc_80484D3 
nop ; padding 
lea esi, [esi-*0] ; padding; ESI doesn't changing here 
loc 80484B8: 
mov ecx, eax ; Save previous state of hash to ECX 
xor al, [esi+edx] ; AL=*(key+i) 
add edx, 1 ; i++ 
shr ecx, 8 ; ECX=hash>>8 
movzx eax, al ; EAX=*(key+i) 
mov eax, dword ptr ds:crctab[eax*4] ; EAX-crctab[EAX] 
xor eax, ecx ; hash-EAX^ECX 
cmp ebx, edx 
ja short loc 80484B8 
loc 80484D3: 
pop ebx 
pop esi 
pop ebp 
retn 
crc endp 


x 


GCC 在 循环 开始 的 时 候 通过 填 入 NOP 和 lea esi,esi+0 来 按 8 字 节 对 齐 。 更 多 信息 请 
阅读 npad 小 结 (64) 。 


# 


网 址 的 计算 实例 


# 


IA S JU SA AN S 


# 


Duff's device 


除 以 9 


+ 


字符 串 转 化 为 数字 (atoi()) 


第 四 十 三 章 


P] X f xc 


内 联 代码 是 指 当 编译 的 时 候 ， 将 函数 体 直接 区 入 正确 位 置 ， 而 不 是 在 这 个 位 


函数 声明 。 


#include <stdio.h> 
int celsius_to_fahrenheit (int celsius) 


{ 


return celsius * 9 / 5 + 32; 


J; 
int main(int argc, char *argv[]) 
{ 
int celsius-atol(argv[1]); 
printf ("%d\n", celsius_to_fahrenheit (celsius)); 
H 


这 个 编译 是 意料 之 中 的 ， 但 是 如 果 换 成 GCC 的 优化 方案 ， 我 们 会 看 到 : 


清单 43.2: GCC 4.8.1 -03 


main: 
push ebp 
mov ebp, esp 
and esp, -16 
sub esp, 16 
call | main 
mov eax, DWORD PTR [ebp+12] 
mov eax, DWORD PTR [eax+4] 
mov DWORD PTR [esp], eax 
call _atol 
mov edx, 1717986919 
mov DWORD PTR [esp], OFFSET FLAT:LC2 ; 
lea ecx, [eaxt+eax*8] 
mov eax, ecx 
imul edx 
sar ecx, 31 
sar edx 
sub edx, ecx 
add edx, 32 
mov DWORD PTR [esp+4], edx 
call _printf 
leave 
ret 


置 


放 上 


这 里 的 除法 由 乘法 完成 。 是 的 ， 我 们 的 小 函数 被 族 到 了 printf() 调 用 之 前 。 为 什么 ? 
因为 这 比 直接 执行 函数 之 前 的 “调用 /返回 "过 程 速度 更 快 。 在 过 去 ， 这 样 的 函数 在 区 
数 声明 的 时 候 必 须 被 标记 为 “内 联 *。 在 现代 ， 这 样 的 函数 会 自动 被 编译 器 识别 。 另 
外 一 个 普通 的 自动 优化 的 例子 是 内 联 字 符 串 函数 ， 比 如 strcpy(),strcemp() 等 


43.1 S Be PE 


43.1.1 strcmp() 
清单 27.3 : 另 一 个 简单 的 例子 


bool is bool (char *s) 


{ 
if (strcmp (s, "true")==0) 
return true; 
if (strcmp (s, "false")--0) 
return false; 
assert(0); 

3 


清单 27.4 : GCC 4.8.1 -O3 


.is bool: 
push edi 
mov ecx, 5 
push esi 
mov edi, OFFSET FLAT:LCO ; "true\0" 
sub esp, 20 
mov esi, DWORD PTR [esp+32] 
repz cmpsb 
je L3 
mov esi, DWORD PTR [esp+32] 
mov ecx, 6 
mov edi, OFFSET FLAT:LC1 ; "false\o" 
repz cmpsb 
seta cl 
setb dl 
xor eax, eax 
cmp cl, dl 
jne L8 
add esp, 20 
pop esi 
pop edi 
ret 


这 是 一 个 经 常 可 以 见 到 的 关于 MSVC 生 成 的 strcmp() 的 例子 


清单 27.5: MSVC 


mov dl, [eax] 

cmp dl, [ecx] 

jnz short loc 10027FA0 
test dl, dl 

jz short loc 10027F9C 
mov dl, [eax+1] 

cmp dl, [ecx+1] 

jnz short loc_10027FA0 
add eax, 2 

add ecx, 2 

test dl, dl 

jnz short loc 10027F80 
loc 10027F9C: ; CODE XREF: f1+448 
xor eax, eax 

jmp short loc 10027FA5 


loc 10027FA0: ; CODE XREF: f1+444 
; £1+450 

sbb eax, eax 

sbb eax, OFFFFFFFFh 


43.1.2 strlen() 
43.1.3 strcpy() 
43.1.4 memset() 
Example? 
Example#2 
43.1.5 memcpy() 
Short blocks 
Long blocks 
43.1.6 memcmp() 


43.1.7 IDA script 


我 写 了 一 个 小 的 用 于 搜索 和 归纳 的 IDA 脚 本 ， 这 样 的 脚本 经 常 能 在 内 联 代码 中 看 
到 : IDA scripts. 


C99 的 限制 
这 个 例子 说 明了 为 什么 某 些 情况 下 FORTRAN 的 速度 比 C/C++ 要 快 


void f1 (int* x, int* y, int* sum, int* product, int* sum produc 
t, int* update me, size t s) 


for (int i-0; i<s; i++) 
{ 
sum[i]=x[i]+y[i]; 
product[i]=x[i]*y[i]; 
update_me[i]=i*123; // some dummy value 
sum_product[i]=sum[i]+product[i]; 

u 

u 


这 是 一 个 十 分 简单 的 例子 ， 但 是 有 一 点 需要 注意 : 指向 update_me 数 组 的 指针 也 可 
以 指向 Sum 数组， 甚至 是 sum_product 数 组 。 但 是 这 不 是 严重 的 错误 ， 对 吗 ? 编译 
器 很 清楚 这 一 点 ， 所 以 他 在 循环 体 中 产生 了 四 个 阶段 : 1. 计 算 下 一 个 sumli] 2. 计 算 
下 一 个 product[i] 3. 计 算 下 一 个 unpdate_meli] 4. 计 算 下 一 个 sum_product[i], 在 这 个 
阶段 ， 我 们 需要 从 已 经 计算 过 Sum[] 和 product[i 的 内 存 中 载 入 数据 


最 后 一 个 阶段 可 以 优化 吗 ? 既然 RU MU eles 需要 再 次 从 内 
存 装 载 的 〈 因 为 我 们 已 经 计算 过 他 们 了 ) 。 但 是 编译 器 不 能 保证 在 第 三 个 阶段 没有 
东西 被 覆盖 掉 |! 这 就 叫 “ 指 针 别 名 ”， 在 这 种 情况 下 编译 器 OLE HG BAL 
内 存 是 否 已 经 被 改变 。 


C99 标 准 中 的 限制 给 解决 这 一 问题 带 来 了 一 线 明 光 。 由 设计 器 传送 给 编译 器 的 函数 
单元 在 标记 这 种 关键 字 (restrict) 后 ， 它 会 指向 不 同 的 内 存 区 域 ， 并 且 不 会 被 混用 。 

如 果 要 更 加 准确 地 描述 这 种 情况 ，restrict 表 明了 只 有 指针 是 可 以 访问 对 象 的 。 这 样 
的 话 我 们 可 以 通过 特定 的 指针 进行 工作 ， 并 且 不 会 用 到 其 他 指针 。 也 就 是 说 一 个 对 
象 如 果 被 标记 为 restrict， 那 么 它 只 能 通过 一 个 指针 访问 。 我 们 把 每 个 指向 变量 的 指 
针 标 记 为 restrict 关 键 字 : 


void f2 (int* restrict x, int* restrict y, int* restrict sum, in 
t* restrict product, int* 

restrict sum product, 

int* restrict update me, size t s) 


1 
for (int i=0; i<s; i++) 
{ 
sum[i]=x[i]+y[i]; 
product[i]-x[i]*y[i]; 
update me[i]-i*123; // some dummy value 
sum product[i]-sum[i]*product[i]; 
J; 
J; 
来 看 下 结果 : 


清单 44.1 : GCC x64: f1() 


fi: 


push r15 r14 r13 r12 rbp rdi rsi rbx 


mov 
mov 
mov 


r13, QWORD PTR 120[rsp] 
rbp, QWORD PTR 104[rsp] 
r12, QWORD PTR 112[rsp] 


test r13, r13 


je 
add 
xor 
mov 
xor 
jmp 
.L6: 
mov 
mov 
„L4: 
lea 
lea 
lea 
lea 
add 
mov 
add 
mov 
mov 


EN 


TS a 
ebx, ebx 
edi, 1 
riid, riid 
„L4 


r1i1, rdi 
rdi, rax 


rax, O[0-*r11*4] 

r10, [rcx-*rax] 

ri4, [rdx+rax] 

rsi, [r8-*rax] 

rax, r9 

ri5d, DWORD PTR [r10] 

ri5d, DWORD PTR [r14] 

DWORD PTR [rsi], ri5d ; store to sum[] 
riOd, DWORD PTR [r10] 


imul riO0d, DWORD PTR [r14] 


mov 
mov 
add 
mov 
add 
lea 
cmp 
mov 
jne 
SEA 
pop 
ret 


清单 44.2 : 


DWORD PTR [rax], ri0d ; store to product[] 

DWORD PTR [ri2+rii1*4], ebx ; store to update me[] 
ebx, 123 

ri0d, DWORD PTR [rsi] ; reload sum[i] 

ri0d, DWORD PTR [rax] ; reload product[i] 

rax, 1[rdi] 

rax, r13 

DWORD PTR O[rbp-*rii*4], ri0d ; store to sum product[] 
.L6 


rbx rsi rdi rbp r12 r13 r14 r15 


GCC x64: f2() 


T2: 
push r13 r12 rbp rdi rsi rbx 
mov r13, QWORD PTR 104[rsp] 
mov rbp, QWORD PTR 88[rsp] 
mov r12, QWORD PTR 96[rsp] 
test r13, r13 
je .L7 
add r13, 1 
xor ri0d, r10d 
mov edi, 1 
xor eax, eax 
jmp .L10 
s [Estas 
mov rax, rdi 
mov rdi, r11 
.L10: 
mov esi, DWORD PTR [rcx-*rax*4] 
mov riid, DWORD PTR [rdx+rax*4] 
mov DWORD PTR [ri2+rax*4], ri0d ; store to update me[] 
add ri0d, 123 
lea ebx, [rsi-*ri1] 
imul riid, esi 
mov DWORD PTR [r8+rax*4], ebx ; store to sum[] 
mov DWORD PTR [r9+rax*4], riid ; store to product[] 
add riid, ebx 
mov DWORD PTR O[rbptrax*4], riid ; store to sum product[] 
lea r11, i[rdi] 
cmp r11, r13 


jne .L11 

5 s 

pop rbx rsi rdi rbp r12 r13 
ret 


被 编译 过 的 f1() 和 f2() 的 不 同 点 是 : 在 f1() 中 ，sumli] 和 product[i] 在 循环 中 途 被 装 入 ， 
但 是 在 f2() 中 没有 这 样 的 特性 。 已 经 计算 过 的 变量 将 被 使 用 ， 既 然 我 们 已 经 向 编译 
的 值 不 用 从 内 存 被 再 装 入 。 很 明显 ， 第 二 个 例子 的 程序 更 快 。 但 是 如 果 兄 数 变 量 中 
的 指针 发 生 混 清 的 情况 又 能 如 何 呢 ?这 这 与 一 个 程序 员 的 认 知 有 关 ， 并 且 结 果 是 不 正 
确 的 。 回 到 FORTRAN“。FORTRAN 语 言 编译 器 按照 指针 的 本 身 含义 对 待 他 ， 所 以 
当 FORTRAN 程 序 在 这 种 情况 下 不 可 能 使 用 restrict 的 时 候 ， 它 可 以 生成 生成 执行 更 
快 的 代码 。 


这 有 什么 实用 价值 ? 当 况 数 处 理 内 存 中 很 多 大 “ 块 "的 时 候 ， 比 如 说 用 超级 计算 机 解 
决 线性 代数 问题 。 或 许 这 就 是 为 什么 FORTRAN 语 言 还 在 这 之 个 领域 被 使 用 。 但 是 当 
迭代 步骤 不 是 很 多 的 时 候 ， 速 度 的 增加 并 不 是 显著 的 。 


第 四 十 九 章 


处 理 不 当 的 反 汇 编 代 码 


逆向 工程 师 经 常 需要 处 理 不 当 的 反 汇 编 代码 


49.1 反 汇编 于 不 正确 起 始 位 置 (x86) 


不 同 于 ARM 和 MIPS 架 构 ( 任 何 指 令 长 度 只 有 2 个 字 节 长 度 或 者 4 个 字 节 长 度 )，x86 架 
构 的 指令 长 度 是 不 定 长 的 ， 因 此 ， 任 何 反 汇编 器 从 x86 指 令 中 间 开 始 反 汇 编 ， 可 能 
会 长 生 不 正确 的 结果 。 


举 个 例子 : 


add [ebp-31F7Bh], cl 

dec dword ptr [ecx-3277Bh] 
dec dword ptr [ebp-2CF7Bh] 
inc dword ptr [ebx-7A76F33Ch] 
fdiv st(4), st 


dec dword ptr [ecx-21F7Bh] 
dec dword ptr [ecx-22373h] 
dec dword ptr [ecx-2276Bh] 
dec dword ptr [ecx-22B63h] 
dec dword ptr [ecx-22F4Bh] 
dec dword ptr [ecx-23343h] 
jmp dword ptr [esi-74h] 


db OFFh 

db OFFh 

mov word ptr [ebp-214h], cs 
mov word ptr [ebp-238h], ds 
mov word ptr [ebp-23Ch], es 
mov word ptr [ebp-240h], fs 
mov word ptr [ebp-244h], gs 
pushf 

pop dword ptr [ebp-210h] 
mov eax, [ebp+4] 

mov [ebp-218h], eax 

lea eax, [ebp+4] 

mov [ebp-20Ch], eax 

mov dword ptr [ebp-2D0h], 10001h 
mov eax, [eax-4] 

mov [ebp-21Ch], eax 

mov eax, [ebp+0Ch] 

mov [ebp-320h], eax 

mov eax, [ebp-*10h] 

mov [ebp-31Ch], eax 

mov eax, [ebp+4] 

mov [ebp-314h], eax 

call ds:IsDebuggerPresent 
mov edi, eax 

lea eax, [ebp-328h] 

push eax 

call sub_407663 

pop ecx 

test eax, eax 

jnz short loc_402D7B 


虽然 上 面 的 代码 片段 一 开始 是 从 错误 的 起 始 位 置 反 汇编 的 ， 但 最 终 ， 反 汇编 器 能 够 
自己 调整 到 正确 的 轨道 上 。 


49.2 不 正确 的 有 反 汇 编 代 码 的 特点 


可 以 很 容易 发 现 它 们 的 共同 特点 是 : 


很 少 出 现 大 尺寸 的 指令 ， 最 常见 的 有 X86 指 令 的 push，mov，call。 但 是 我 们 可 以 
看 到 这 些 指令 来 自 各 个 不 同 的 指令 组 ， 有 FPU 指 令 ，IN/OUT 指 令 ， 少 数 的 系统 指 
令 ， 一 切 都 是 因为 反 汇 编 器 从 一 个 错误 的 位 置 上 开始 反 汇编 机 器 码 给 搞 砸 了 。 偏 移 
量 和 立即 数 都 是 一 些 随 机 值 ， 而 且 数 值 较 大 。 跳 转 到 不 正确 的 偏 移 地 址 常常 会 跳 转 
到 另 一 个 指令 的 中 间 。 代码 清单 28.1:x86 架 构 不 正确 的 反 汇 编 代 码 示 例 


mov bl, OCh 

mov ecx, 0D38558Dh 
mov eax, ds:2C869A86h 
db 67h 

mov dl, OCCh 

insb 

movsb 

push eax 

xor [edx-53h], ah 
fcom dword ptr [edi-45A0EF72h] 
pop esp 

pop ss 

in eax, dx 

dec ebx 

push esp 

lds esp, [esi-41h] 
retf 

rcl dword ptr [eax], cl 
mov cl, 9Ch 

mov ch, ODFh 

push CS 

insb 

mov esi, OD9C65E4Dh 
imul ebp, [ecx], 66h 
pushf 

sal dword ptr [ebp-64h], cl 
sub eax, OAC433D64h 
out 8Ch, eax 

pop ss 

sbb [eax], ebx 

aas 


xchg cl, [ebx+ebx*4+14B31Eh ] 
jecxz short near ptr loc 5871 


xor al, OC6h 
inc edx 
db 36h 


stosb 


test [ebx], ebx 
sub al, QD3h ; 'L' 
pop eax 

stosb 


loc 58: ; CODE XREF: seg000:0000004A 


test [esi], eax 

inc ebp 

das 

db 64h 

pop ecx 

das 

hlt 

pop edx 

out OBOh, al 

lodsb 

push ebx 

cdq 

out dx, al 

sub al, OAh 

sti 

outsd 

add dword ptr [edx], 96FCBEABh 
and eax, OE537EE4Fh 
inc esp 

stosd 

cdq 

push ecx 

in al, OCBh 

mov ds:0D114C45Ch, al 
mov esi, 659D1985h 


enter 6FE8h, OD9h 
enter 6FE6h, OD9h 


xchg eax, eSi 

sub eax, 0A599866Eh 
retn 

pop eax 

dec eax 

adc dd o us 
lahf 

inc edi 

sub eax, 9062bEE5Bh 


bound eax, [ebx] 


loc A2: ; CODE XREF: seg000:00000120 
wait 
iret 


jnb short loc D7 
cmpsd 


iret 


jnb short loc D7 
sub ebx, [ecx] 

in al, OCh 

add esp, esp 

mov bl, 8Fh 

xchg eax, ecx 

int 67h 

pop ds 

pop ebx 

db 36h 

xor esi, [ebp-4Ah] 
mov ebx, OEBAF980Ch 


repne add bl, dh 
imul ebx, [ebp+5616E7A5h], 67A4D1EEh 


xchg eax, ebp 
scasb 

push esp 

wait 

mov dl, 11h 

mov ah, 29h ; ')' 


fist dword ptr [edx] 


loc_D7: ; CODE XREF: Seg000:000000A4 
; Seg000:000000A8 ... 


dec dword ptr [ebp-5DOEOBA4h] 
call near ptr 622FEE3Eh 

sbb ax, 5A2Fh 

jmp dword ptr cs:[ebx] 

xor ch, [edx-5] 

inc esp 

push edi 

xor esp, [ebx-6779D3B8h] 

pop eax 

int 3 ; Trap to Debugger 
rcl byte ptr [ebx-3Eh], cl 
xor [edi], bl 

sbb al, [edx*ecx*4] 

xor ah, [ecx-1DA4E05Dh ] 

push edi 

xor ah, cl 

popa 

cmp dword ptr [edx-62h], 46h ; 'F' 
dec eax 

in al, 69h 

dec ebx 

iret 

or al, 6 

jns short near ptr loc_D7+3 


shl byte ptr [esi], 42h 


repne adc [ebx+2Ch], eax 


icebp 
cmpsd 
leave 
push esi 
jmp short loc_A2 
and eax, OF2E41FE9h 
push esi 
loop loc 14F 
add ah, fs:[edx] 
loc 12D: ; CODE XREF: seg000:00000169 
mov dh, OF7h 
add [ebx+7B61D47Eh], esp 
mov edi, 79F19525h 
rcl byte ptr [eax+22015F55h], cl 
cli 
sub al, QD2h ; 'T' 
dec eax 
mov ds:0A81406F5h, eax 
sbb eax, 0A7AA179Ah 
in eax, dx 


loc_14F: ; CODE XREF: seg000:00000128 


and [ebx-4CDFAC74h], ah 
pop ecx 

push esi 

mov Di 2p seen 

in eax, 2Ch 

stosd 

inc edi 

push esp 


locret 15E: ; CODE XREF: seg000:1loc 1A0 
retn 0C432h 


and al, 86h 

cwde 

and al, 8Fh 

cmp ebp, [ebp-*7] 

jz short loc 12D 

sub bh, ch 

or dword ptr [edi-7Bh], 8A16COF7h 
db 65h 

insd 

mov al, ds:0A3A5173Dh 
dec ecx 

push ds 

xor al, cl 

jg short loc_195 


push GEh any? 
out ODDh, al 


inc 
sub 
leave 
rcr 
sbb 


loc 195: 
push 


edi 
eax, 6899BBFih 


dword ptr [ecx-69h], cl 
ch, [edi+5—EDDCB54h ] 


CODE XREF: seg000:0000017F 


es 


repne sub ah, [eax-105FF22Dh] 


cmc 
and 


loc_1A0: 
jnp 
or 
add 
out 
db 
call 
jz 
sbb 
xchg 
xor 


loc 1C1: 
cmp 
add 
aad 
imul 
or 
popf 


loc 1DA: 
mov 
aaa 
mov 
adc 
add 
retn 


db 
mov 
and 
db 
xchg 
push 
adc 
mov 
sub 
xchg 
or 
xchg 
inc 


ch, al 


CODE XREF: seg000:00000217 


short near ptr locret 15E-*1 
ch, [eax-66h] 

[editedx-35h], esi 

dx, al 

2Eh 

far ptr 1AAh:6832F5DDh 
short near ptr loc 1DA-*1 
esp, [edi+2CBO2CEFh] 

eax, edi 

[ebx-766342ABh], edx 


CODE XREF: seg000:00000212 


eax, 1BE9080h 

[ecx], edi 

9 

esp, [edx-70h], 0A8990126h 
dword ptr [edx+10C33693h], 4Bh 


CODE XREF: seg000:000001B2 


ecx, cs 


al, 39h ; '9' 

byte ptr [eax-77F7F1C5h], OC7h 
[ecx], bl 

ODD42h 


3Eh 

fs:[edi], edi 
[ebx-24h], esp 
64h 

eax, ebp 

cs 

eax, [edit+36h] 
bh, @C7h 

eax, OA710CBE7h 
eax, ecx 

eax, 51836E42h 
eax, ebx 

ecx 


jb short near ptr loc 21E-*3 


db 64h 
xchg eax, esp 
and dh, [eax-31h] 
mov ch, 13h 
add ebx, edx 
jnb short loc 1C1 
db 65h 
adc al, OC5h 
js short loc 1A0 
sbb eax, 887F5BEEh 
loc_21E: ; CODE XREF: seg000:00000207 
mov eax, 888E1FD6h 
mov bl, 90h 
cmp [eax], ecx 
rep int 61h ; reserved for user interrupt 
and edx, [esi-7EB5C9EAh] 
fisttp qword ptr [eaxt+tesi*4+38F9BA6h ] 
jmp short loc_27C 
fadd st, st(2) 
db 3Eh 
mov edx, 54C03172h 
retn 
db 64h 
pop ds 
xchg eax, esi 
rcr ebx, cl 
cmp [di-2bh], ebx 
repne xor [di-19h], dh 
insd 
adc dl, [eax-0C4579F7h] 
push SS 
xor [ecx+edx*4+65h], ecx 
mov cl, [ecx+ebx-32E8AC51h ] 
or [ebx], ebp 
cmpsb 
lodsb 
iret 


代码 清单 28.2:x86 64 架构 不 正确 的 反 汇 编 代 码 示 例 


lea esi, [raxt+rdx*4+43558D29h ] 

loc AF3: ; CODE XREF: seg000:0000000000000B46 
rcl byte ptr [rsit+rax*8+29BB423Ah], 1 
lea ecx, CS:OFFFFFFFFB2A6780Fh 
mov al, 96h 


mov ah, OCEh 


push 
lods 


db 2Fh 


pop 
db 
retf 


cmp 
movzx 
push 

movzx 


db 9Ah 


rcr 
lodsd 
xor 
xor 
push 
sbb 
stosd 
int 
db 
out 
xchg 
test 
movsd 
leave 
push 


db 16h 


xchg 
pop 


loc B3D: ; 
mov 
jnz 
out 
cwde 
mov 
movsb 


pop 
db 60h 


movsxd 
pop 
out 
add 


CODE XREF: 


rsp 
byte ptr [esi] 


a A 


rsp 
64h 
0E993h 


ah, [rax+4Ah] 
rsi, dword ptr [rbp-25h] 
4Ah 


rdi, dword ptr [rdi+rdx*8] 


byte ptr [rax+1Dh], cl 


[rbp+6CF20173h], edx 
[rbp+66F8B593h], edx 
rbx 

ch, [rbx-OFh] 


87h 
46h, 4Ch 
33h, rax 


eax, ebp 
ecx, ebp 


rsp 


eax, esi 
rdi 


ds:93CA685DF98A90F9h, eax 
short near ptr loc AFS3*6 
dx, eax 

bh, 5Dh ; ']' 


rbp 


rbp, dword ptr [rbp-17h] 


7Dh, al 
eax, OD79BE769h 


seg000:0000000000000B5F 


db 1Fh 


retf OCAB9h 


jl short near ptr loc _B3D+4 
sal dword ptr [rbx+rbp+4Dh], OD3h 
mov cl, 41h ; 'A' 


imul eax, [rbp-5B77E717h], 1DDE6E5h 
imul ecx, ebx, 66359BCCh 


xlat 

db 60h ; 

cmp bl, [rax] 

and ebp, [rcx-57h] 

stc 

sub [rcx*1A533AB4h], al 
jmp short loc C05 

db 4Bh ; K 

int 3 ; Trap to Debugger 
xchg ebx, [rsp-*rdx-5Bh] 

db OD6h 

mov esp, OC5BA61F7h 

out OA3h, al ; Interrupt Controller #2, 8259A 
add al, OA6h 

pop rbx 

cmp bh, fs:[rsi] 

and Giy El 

cmp al, OF3h 

db OEh 

xchg dh, [rbp+rax*4-4CE9621Ah ] 
stosd 

xor [rdi], ebx 

stosb 

xchg eax, ecx 

push rsi 

insd 

fidiv word ptr [rcx] 

xchg eax, ecx 

mov dh, QOCOh ; 'L' 

xchg eax, esp 

push rsi 

mov dh, [rdx+rbp+6918F1F3h] 
xchg eax, ebp 

out 9Dh, al 


loc BCO: ; CODE XREF: seg000:0000000000000C26 


or [rcx-0Dh], ch 


int 67h ; - LIM EMS 
push rdx 

sub ale ash Ce 

test ecx, ebp 

test [rdi*71F372A4h], cl 

db 7 

imul ebx, [rsi-ODh], 2BB30231h 
xor ebx, [rbp-718B6E64h] 

jns short near ptr loc C56+1 
ficomp dword ptr [rcx-1Ah] 

and eax, 69BEECC7h 

mov esi, 37DA40F6h 

imul r13, [rbp+rdi*8+529F33CDh], OFFFFFFFFF35CDD30h 
or [rbx], edx 


imul esi, [rbx-34h], 0CDA42B87h 


db 36h ; 6 
db 1Fh 


loc C05: ; CODE XREF: seg000:0000000000000B86 


add dh, [rcx] 

mov edi, ODD3E659h 

ror byte ptr [rdx-33h], cl 
xlat 

db 48h 

sub rsi, [rcx] 

db 1Fh 

db 6 

xor [rdi-13F5F362h], bh 
cmpsb 

sub esi, [rdx] 

pop rbp 

sbb al 62 "p. 

mov di 33h se. 23° 

db 4Dh ; M 

db 17h 

jns short loc BCO 


push © @FFFFFFFFFFFFFF86h 


loc C2A: ; CODE XREF: seg000:0000000000000C8F 


sub [rdi-2Ah], eax 
db OFEh 


cmpsb 


rcr byte ptr [rax+5Fh], cl 

cmp bl, al 

pushfq 

xchg Chie cl 

db 4Eh ; N 

db 37h ; 7 

mov ds : 0E43F3CCD3D9AB295h, eax 
cmp ebp, ecx 

jl short loc_C87 


retn 8574h 
out 3, al ; DMA controller, 8237A-5. 
; channel 1 base address and word co 

unt 
loc C4C: ; CODE XREF: seg000:0000000000000C7F 

cmp al, OA6h 

wait 

push OFFFFFFFFFFFFFFBEh 

db 82h 

ficom dword ptr [rbx+r10*8] 


loc C56: ; CODE XREF: seg000:0000000000000BDE 


jnz short loc C76 

xchg eax, edx 

db 26h 

wait 

iret 

push rcx 

db 48h ; H 

db 9Bh 

db 64h ; d 

db 3Eh ; > 

db 2Fh ; / 

mov al, ds:8A7490CA2E9AA728h 
stc 

db 60h ; 

test [rbx+rcx], ebp 

int 3 ; Trap to Debugger 
xlat 


loc C72: ; CODE XREF: seg000:0000000000000CC6 
mov bh, 98h 


db 2Eh ; 
db ODFh 


loc C76: ; CODE XREF: seg000:1loc C56 


jl short loc C91 

sub ecx, 13A7CCF2h 

movsb 

jns short near ptr loc_C4C+1 
cmpsd 

sub ah, ah 

cdq 

db 6Bh ; k 

db 5Ah ; Z 


loc C87: ; CODE XREF: seg000:0000000000000C45 


or ecx, [rbx+6Eh] 
rep in eax, OEh ; DMA controller, 8237A-5. 
; Clear mask registers. 
; Any OUT enables all 4 channels. 
cmpsb 
jnb short loc C2A 
loc C91: ; CODE XREF: seg000:1loc C76 
scasd 
add dl, [rcx+5FEF30E6h] 
enter OFFFFFFFFFFFFC733h, 7Ch 
insd 
mov ecx, gs 
in al, dx 
out 2Dh, al 
mov ds:6599E434E6D96814h, al 
cmpsb 
push OFFFFFFFFFFFFFFD6h 
popfq 
xor ecx, ebp 
db 48h 
insb 
test al, cl 
xor [rbp-7Bh], cl 
and al, 9Bh 
db 9Ah 
push rsp 
xor al, 8Fh 
cmp eax, 924E81B9h 
clc 
mov bh, ODEh 


jbe short near ptr loc _ C72+1 


db 1Eh 
retn 8FCAh 


db 0C4h ; - 


loc CCD: ; CODE XREF: seg000:0000000000000D22 


adc eax, 7CABFBF8h 

db 38h ; 8 

mov ebp, 9C3E66FCh 
push rbp 

dec byte ptr [rcx] 
sahf 

fidivr word ptr [rdit+2Ch] 
db 1Fh 

db 3Eh 

xchg eax, esi 


loc CE2: ; CODE XREF: seg000:0000000000000D5E 


mov ebx, OC7AFE30Bh 
clc 

in eax, dx 

sbb bh, bl 

xchg eax, ebp 

db 3Fh ; ? 

cmp edx, 3EC3E4D7h 

push 51h 

db 3Eh 

pushfq 

jl short loc_D17 

test [rax-4CFFOD49h], ebx 
db 2Fh ; / 

rdtsc 

jns short near ptr loc_D40+4 
mov ebp, 0B2BB03D8h 

in eax, dx 

db 1Eh 

fsubr dword ptr [rbx-OBh] 
jns short loc_D70 

scasd 


mov Choc E EET 


add edi, [rbx-53h] 


db OE7h 


loc D17: ; CODE XREF: seg000:0000000000000CF7 


jp short near ptr unk D79 
scasd 

cmc 

sbb ebx, [rsi] 

fsubr dword ptr [rbx+3Dh] 
retn 

db 3 

jnp short near ptr loc_CCD+4 
db 36h 

adc ri4b, ri3b 

db 1Fh 

retf 

test [rdi+rdi*2], ebx 

cdq 

or ebx, edi 


test eax, 310B94BCh 
ffreep st(7) 

cwde 

sbb esi, [rdx+53h] 
push 5372CBAAh 


loc D40: ; CODE XREF: seg000:0000000000000D02 
push 53728BAAh 
push QFFFFFFFFF85CF2FCh 
db OEh 
retn 9B9Bh 


movzx r9, dword ptr [rdx] 


adc [rcx+43h], ebp 

in al, 31h 

db 37h ; 7 

jl short loc DC5 

icebp 

sub esi, [rdi] 

clc 

pop rdi 

jb short near ptr loc CE2+1 


or al, 8Fh 


mov ecx, 770EFF81h 


sub al, ch 

sub al TAN us 

cmpsd 

adc bl, al 

out 87h, eax ; DMA page register 74LS612: 


; Channel 0 (address bits 16-23) 


loc D70: ; CODE XREF: seg000:0000000000000DO0E 


adc edi, ebx 
db 49h 

outsb 

enter 33E5h, 97h 
xchg eax, ebx 


unk D79 db OFEh ; CODE XREF: seg000:1loc D17 
db OBEh 
db OE1h 
db 82h 


loc D7D: ; CODE XREF: seg000:0000000000000DB3 
cwde 


db 7 
olen CLG an nN 
db 10h 
db 73h ; s 
db OAQh 
db 2Bh ; + 
db 9Fh 


loc D85: ; CODE XREF: seg000:0000000000000DD1 


dec dh 

jnz short near ptr loc DDS3-*3 
mov ds:7C1758CB282bF9BFh, al 
sal ch, 91h 

rol dword ptr [rbx+7Fh], cl 


fbstp tbyte ptr [rcx-*2] 
repne mov al, ds:4BFAB3C3ECF2BE13h 


pushfq 

imul edx, [rbx+rsi*8+3B484EE9h], 8bEDCO9C6h 
cmp [rax], al 

jg short loc D7D 

xor [rcx-638C1102h], edx 

test eax, 14E3AD7h 

insd 

db 38h ; 8 

db 80h 


db 0C3h 


loc DC5: ; CODE XREF: seg000:0000000000000D57 
; Seg000:0000000000000DD8 


cmp ah, [rsitrdi*2+527C01D3h] 
sbb eax, 5FC631F0h 
jnb short loc_D85 


loc DD3: ; CODE XREF: seg000:0000000000000D87 
call near ptr OFFFFFFFFC03919C7h 
loope near ptr loc DC5«3 
sbb al, OC8h 
std 


代码 清单 28.2:ARM 架 构 (ARM 模式 ) 不 正确 的 反 汇 编 代 码 示 例 


BLNE 9xFE16A9D8 
BGE 0x1634D0C 

SVCCS — 0x450685 

STRNVT R5, [PC], #-0x964 

LDCGE p6, c14, [RO], #0x168 
STCCSL p9, c9, [LR], 40x14C 
CMNHIP PC, R10,LSL#22 
FLDMIADNV LR!, {D4} 

MCR p5, 2, R2,c15,c6, 4 
BLGE 0x1139558 

BLGT 9xFF9146E4 

STRNEB R5, [R4],#0xCA2 
STMNEIB R5, {RO,R4,R6,R7,R9-SP, PC} 
STMIA R8, {RO,R2-R4,R7,R8,R10,SP,LR}4 
STRB SP, [R8],PC, RORZ18 
LDCCS p9, c13, [R6,#0x1BC] 
LDRGE R8, [R9,#0x66E] 

STRNEB R5, [R8],#-0x8C3 
STCCSL p15, c9, [R7,#-0x84] 
RSBLS LR, R2, R11,ASR LR 
SVCGT X 0x9B0362 

SVCGT — 0xA73173 

STMNEDB R11!, [RO,R1,R4-R6,R8,R10,R11,SP] 
STR RO, [R3], £-OxCE4 

LDCGT p15, c8, [R1,#0x2CC] 
LDRCCB R1, [R11], -R7,ROR#30 
BLLT @xFED9D58C 

BL OX13E60F4 

LDMVSIB R3!, {R1,R4-R7}4 
USATNE R10, #7, SP,LSL#11 
LDRGEB LR, [R1],#0xE56 

STRPLT R9, [LR], #0x567 

LDRLT R11, [R1],#-0x29B 
SVCNV — Ox12DB29 

MVNNVS R5, SP, LSL#25 

LDCL p8, c14, [R12,4-0x288] 
STCNEL p2, c6, [R6,#-OxBC]! 
SVCNV — Ox2E5A2F 

BLX OX1A8C97E 

TEQGE R3, #0x1100000 
STMLSIA R6, {R3,R6,R10,R11, SP} 
BICPLS R12, R2, #0x5800 

BNE 0x7CC408 

TEQGE R2, R4,LSL#20 

SUBS R1, R11, #0x28C 

BICVS R3, R12, R7,ASR RO 
LDRMI R7, [LR],R3,LSL#21 
BLMI 0x1A79234 

STMVCDB R6, (RO-R3,R6, R7, R10, R11} 
EORMI R12, R6, #0xC5 

MCRRCS pi, OxF, R1,R3,c2 


代码 清单 28.2:ARM 架 构 (Thumb 模式 ) 不 正确 的 反 汇 编 代 码 示 例 


LSRS R3, R6, 40x12 
LDRH R1, [R7,40x2C] 
SUBS RO, 40x55 ; 'U' 
ADR R1, loc 3C 

LDR R2, [SP,40x218] 
CMP R4, 40x86 

SXTB R7, R4 

LDR R4, [R1,40x4C] 
STR R4, [R4,R2] 

STR RO, [R6,40x20] 
BGT OxFFFFFF72 

LDRH R7, [R2,40x34] 
LDRSH RO, [R2,R4] 
LDRB R2, [R7,R2] 

DCB 0x17 

DCB OxED 

STRB R3, [R1,R1] 

STR R5, [RO,#0x6C] 
LDMIA R3, {RO-R5,R7} 
ASRS R3, R2, #3 

LDR R4, [SP,40x2C4] 
SVC 0xB5 

LDR R6, [R1,40x40] 
LDR R5, -0xB2C5CA32 
STMIA R6, {R1-R4,R6} 
LDR R1, [R3,40x3C] 
STR R1, [R5,40x60] 
BCC OxFFFFFF70 

LDR R4, [SP,#0x1D4] 
STR R5, [R5,#0x40] 
ORRS R5, R7 


loc 3C ; DATA XREF: ROM:00000006 


B OxFFFFFF98 
ASRS RA, R1, ZOx1E 
ADDS R1, R3, RO 
STRH R7, [R7,#0x30] 
LDR R3, [SP,#0x230] 
CBZ R6, loc 90 
MOVS RA, R2 

LSRS R3, R4, 40x17 
STMIA R6!, {R2,R4,R5} 
ADDS R6, #0x42 ; 'B' 
ADD R2, SP, #0x180 
SUBS R5, RO, R6 

BCC loc BO 

ADD R2, SP, #0x160 


LSLS R5, RO, #0x1A 


CMP R7, 40x45 

LDR R4, [R4,R5] 

DCB Ox2F ; / 

DCB 9xF4 

B OxFFFFFD18 

ADD R4, SP, 40x2CO 
LDR R1, [SP,#0x14C] 
CMP R4, #0xEE 

DCB QOxA 

DCB OxFB 


STRH R7, [R5,40xA] 
LDR R3, loc 78 


DCB OxBE ; - 
DCB OxFC 


MOVS R5, 40x96 


DCB Ox4F ; O 


DCB OxEE 
B OxFFFFFAE6 
ADD R3, SP, #0x110 


loc 78 ; DATA XREF: ROM:0000006C 
STR R1, [R3,R6] 
LDMIA R3!, {R2,R5-R7} 
LDRB R2, [R4,R2] 
ASRS R4, RO, 40x13 
BKPT OxD1 
ADDS R5, RO, R6 
STR R5, [R3,40x58] 


代码 清单 28.2:MIPS 架 构 (小 端 序 ) 不 正确 的 反 汇 编 代 码 示例 


lw $t9, OxCB3($t5) 
sb $t5, Ox3855($t0) 
sltiu  $a2, $a0, -0x657A 
ldr $t4, -Ox4D99($a2) 
daddi $s0, $s1, Ox50A4 
lw $s7, -0x2353($s4) 


bgtzl $al, 0x17C5C 


.byte 0x17 


.byte 


OXED 


.byte Ox4B # K 
.byte 0x54 £4 T 


lwc2 
lwu 
ldr 
lwci 
daddiu 
lwu 
copo 
bne 
lh 
sdl 
jal 
ori 
blez 
swl 
sltiu 
sdc1 
SW 
sltiu 
lb 

sd 


.byte 
.byte 
.byte 
.byte 


swl 
lwc2 
bne 


.byte 
.byte 
.byte 
.byte 


SWC2 
swc1 
sltiu 
sh 
bne 
sltiu 
lbu 
pref 
pref 
blez 
swc1 
pref 
ori 
Swr 


$31, 
$s1, 
$t6, 


Ox66C5($sp) 
0x10D3($a1) 


-0x204B($zero) 


$f30, Ox4DBE($s2) 


$t1, 
$s5, 


$s1, 0x6BD9 
-0x2C64($v1) 


OX13D642D 


$gp, 
$ra, 
Sfp, 


$t4, OxFFFF9EFO 


0x1819($s1) 
-0x6474($t8) 


0x78C0050 


$vO, 
$gp, 
$t8, 
$a1, 


$s2, OxC634 
OxFFFEA9DA 
-Ox2CD4($s2) 
$k0, 0x685 


$f15, Ox5964($at) 


$s0, 
$t6, 
$t7, 
Sfp, 


0x96 
0x25 
OxAF 
OxEE 


$a0, 
$4, 
$a2, 


OxD1 
OxBE 
0x85 
0x19 


$8, 

$f8, 
$s6, 
$t9, 
$vO, 
$a3, 
$vO, 


-0x19A6($a1) 
$a3, -0x66AD 
-Ox4F6($t3) 
Ox4B02($a1) 


# 96 
# 0 


-Ox1AC9($kO) 
0x5199($ra) 
$a0, 0x17308 


0x659D($a2) 
-0x2691($s6) 
$t4, -0x2691 
-0x7992($t4) 
$to, Ox163A4 
$t2, -Ox60DF 
-OQx11A5 ($v1) 


Ox1B, Ox362($gp) 
7, Ox3173($sp) 


$t1, 
$f3, 


0x11, 


$k1, 
$s6, 


0xB678 


flt_CE4($zero) 


-0x704D($t4) 
$s2, Ox1F67 
0x7533($sp) 


swc2 $15, -0x67FA4($k0) 


ldl $s3, OxF2($t7) 

bne $s7, $a3, OxFFFE973C 
sh $s1, -Ox11AA($a2) 
bnel $al, $t6, OXFFFE566C 
sdr $s1, -Ox4D65($zero) 
sd $s2, -Ox24D7($t8) 
scd $s4, Ox5C8D($t7) 
.byte OxA2 

.byte OxE8 

.byte OxbC # N 

.byte OxED 

bgtz $t3, 0x189A0 

sd $t6, Ox5A2F($t9) 
sdc2 $10, 0x3223($k1) 

sb $s3, 0x5744($t9) 

lwr $a2, Ox2C48($a0) 


beql $fp, $s2, OXxFFFF3258 


同样 重要 的 是 要 记 住 ， 巧 妙 地 运用 解压 缩 和 解密 技术 (包括 自修 改 )， 可 能 看 起 来 像 
是 一 段 不 正确 的 反 汇 编 代码 ， 但 是 ， 它 是 能 够 正确 运行 的 ( 注 们 © 


注 1: 一 段 代码 在 经 过 压缩 或 者 加 密 之 后 ， 他 的 机 器 码 全 都 变 乱 了 ， 因 此 ， 反 汇编 结 
果 得 到 的 是 一 段 错误 的 反 汇 编 代码 。 但 是 经 过 一 段 解 压缩 程序 或 者 解密 程序 处 理 之 
后 ， 它 就 能 够 还 原 出 原来 的 机 器 码 ， 因 此 反 汇 编 出 来 的 代码 和 运行 结果 都 是 正确 
的 。 


花 指 令 是 企图 隐藏 掉 不 想 


50.1 X ATA 


我 发 现在 文本 字符 串 使 用 可 能 会 很 有 用 ， 程 序 员 意 识 某 字符 串 不 想 被 逆向 工程 的 时 
E one eye a en 他 十 六 进 制 编辑 器 无 法 找到 。 这 里 
说 明 一 个 简单 的 方法 ， 那 就 是 


mov byte 
mov byte 
mov byte 
mov byte 
mov byte 
mov byte 
mov byte 
mov byte 
mov byte 
mov byte 
mov byte 


当 两 个 字 待 串 进 


mov ebx， 
cmp byte 
jnz fail 
cmp byte 
jnz fail 
cmp byte 
jnz fail 
cmp byte 
jnz fail 


Jes ee 


ptr [ebx], ‘h’ 


ptr [ebx+1], 
ptr [ebx+2], 
ptr [ebx+3], 
ptr [ebx+4], 
ptr [ebx+5], 
ptr [ebx+6], 
ptr [ebx+7], 
ptr [ebx+8], 
ptr [ebx+9], 


ptr [ebx+10], 


“e 
eb; 
PATRZ 


ea 
'g' 


offset username 


ptr [ebx], ’ 
ptr [ebx+1], 
ptr [ebx+2], 
ptr [ebx+3], 


john 


在 这 两 种 情况 下 ， 是 不 可 能 


顺便 提 一 下 


17 


'o' 


ni 


‘yn!’ 


Itr 
， 这 种 方法 使 得 字符 串 不 可 外 


8 被 逆向 工程 的 代码 块 (或 其 它 功 能 ) 的 一 种 方法 。 


这 样 的 字符 串 的 实现 方式 : 


行 比较 的 时 候 看 起 来 是 这 样 : 


1 编辑 器 中 找到 这 些 字符 串 的 。 
被 分 配 到 程序 的 代码 段 中 。 在 菜 


能 会 用 到 ， 上 比如， 在 PIC 或 者 在 shellcode 中 。 
另 一 种 方法 是 ， 我 曾经 看 到 用 sprintf() 构 造 字 符 串 。 


些 场合 可 


sprintf(buf, "%s%c%s%c%s", "hel"， 1 和 "0 wor rid")? 


代码 看 起 来 比较 怪异 ， 但 是 做 为 一 个 简单 的 防止 北向 工程 确实 一 个 有 用 的 方法 X 
本 字符 囊 也 可 能 存在 于 加 密 的 形式 ， 那 么 所 有 字符 囊 在 使 用 前 比较 闲 将 字符 囊 解密 
了 o 


50.2 可 执行 代码 


50.2.1 插入 垃圾 


可 执行 代码 花 指令 的 意思 是 在 丨 实 的 代码 中 插入 一 些 垃圾 代码 ， 但 是 保证 原 有 程序 
的 执行 正确 。 


举 个 简单 的 例子 


add eax, ebx 
mul ecx 


代码 清单 29.1 : 花 指令 


xor esi, 011223344h ; garbage 
add esi, eax ; garbage 

add eax, ebx 

mov edx, eax ; garbage 

shl edx, 4 ; garbage 

mul ecx 

xor esi, ecx ; garbage 


这 里 的 花 指令 使 用 原 程序 代码 中 没有 使 用 的 寄存 器 CE E 
指令 之 后 ， 原 有 的 汇编 代码 变 得 更 为 枯 涩 难 懂 ， 从 而 达到 不 轻易 被 逆向 工程 的 效 
果 。 


50.2.2 替换 与 原 有 指令 等 价 的 指令 


mov op1，op2 可 以 替换 为 push op2/pop Op1 这 两 条 指令 。 

jmp Labe1 可 以 替换 为 push label/ret 这 两 条 指令 ，IDA 将 不 会 显示 被 引用 的 labe 
le 

call label" 4 4&7 push label after call instruction/push label/r 
ef 这 三 条 指令 。 

push op 可 以 替换 为 sub esp，4( 或 者 8)/mov [esp]，op 这 两 条 指令 。 





50.2.3 绝对 被 执行 的 代码 与 绝对 不 被 执行 的 代码 


如 果 开 发 人 员 肯 定 ESI 寄 存 器 始终 为 0 


mov esi, 1 
; some code not touching ESI 
dec ‘esi 
; some code not touching ESI 
cmp esi, 0 
jz real_code 
;fakeluggage 
real code: 


逆向 工程 需要 一 段 时 间 才 能 够 执行 到 real code » 3453 ff A opaque predicate ° 4% 
一 个 例子 (同上 ， 假 设 可 以 肯定 ESI 寄 存 器 始终 为 0): 


add eax, ebx ; real code 

mul ecx ; real code 

add eax, esi ; opaque predicate. XOR, AND or SHL, etc, can be he 
re instead of ADD. 


50.2.4 打 乱 执 行 流程 


举 个 例子 ， 比 如 执行 下 面 这 三 条 指令 : 


instruction 1 
instruction 2 
instruction 3 


可 以 被 替换 为 : 


begin: 
jmp insi label 

ins2 label: 
instruction 2 
jmp ins3 label 

ins3 label: 
instruction 3 
jmp exit 

insi label: 
instruction 1 
jmp ins2 label 

exit: 


50.2.4 使 用 间接 指针 


dummy datai1 db 100h dup (0) 
messagei db ‘hello world',O 


dummy data2 db 200h dup (0) 
message2 db 'another message',0 


func proc 
mov eax, offset dummy datai1 ; PE or ELF reloc here 
add eax, 100h 
push eax 
call dump string 
mov eax, offset dummy data2 ; PE or ELF reloc here 
add eax, 200h 
push eax 
call dump string 
func endp 
IDA 仅 会 显示 dummy_data1 和 dummy_data2 的 引用 ， 但 无 法 引导 到 文本 字符 串 ， 全 
局 变量 其 至 是 函数 的 访问 方式 都 可 能 使 用 这 种 方法 以 达到 混 消 代码 的 目地 。 


50.3 庶 拟 机 / 伪 代 码 
程序 员 可 能 写 一 个 PL 或 者 ISA 来 解释 程序 (例如 Visual Basic 5.0 与 之 前 的 版 本 , .NET 


Java machine)。 这 使 得 逆向 工程 不 得 不 花费 更 多 的 时 间 去 了 解 这 些 语言 它们 的 所 
有 ISP 指 令 详细 信息 。 更 有 其 者 ， 他 们 可 能 需要 编写 其 中 某 些 语言 的 反 汇 编 器 。 


50.4 其 它 


我 为 TCC(Tiny C compilen) 添 加 一 个 产生 花 指 令 功能 的 补丁 : 
http://blog.yurichev.com/node/58 ° 


50.5 练 习 


e http://challenges.re/29 


第 五 十 一 章 
C++ 


31.1 类 


51.1.1 简单 的 例子 


在 程序 内 部 ，C++ 类 的 表示 基本 和 结构 体 一 样 。 让 我 们 试 试 这 个 有 2 个 变量 ，2 个 构 
造 函 数 和 1 个 方法 的 类 。 


Zinclude <stdio.h> 
class c 
{ H 
private: 
int v1; 
int v2; 
public: 
c() // default ctor 


v1=667; 

v2=999; 
}; 
c(int a, int b) // ctor 
{ 

vi=a; 

v2-b; 


}; 
void dump() 
{ 


printf ("%d; %d", v1, v2); 


}; 

int main() 

{ 
class c c1; 
class c c2(5,6); 
c1.dump(); 
c2.dump( ); 
return 0; 

3 


MSVC-X86 


这 里 可 以 看 到 main () 部 数 是 如 何 被 翻译 成 汇编 代码 的 : 


_c2$ = -16 ; size = 8 
.c1$ = -8 ; size = 8 
_main PROC 

push ebp 


mov ebp, esp 

sub esp, 16 ; 00000010H 

lea ecx, DWORD PTR _ci$[ebp] 
call ??0c@@QAE@XZ ; c::c 

push 6 

push 5 

lea ecx, DWORD PTR _c2$[ebp] 
call ??0c@@QAE@HH@Z ; c::c 

lea ecx, DWORD PTR _ci$[ebp] 
call ?dump@c@@QAEXXZ ; c::dump 
lea ecx, DWORD PTR _c2$[ebp] 
call ?dump@c@@QAEXXZ ; c::dump 
xor eax, eax 

mov esp, ebp 

pop ebp 

ret 0 

_main ENDP 


所 以 ， 发 生 什 么 了 。 对 每 个 对 象 来 说 (而 不 是 类 c) ， 会 分 配 8 个 字 节 。 这 正好 是 2 
个 变量 存储 所 需 的 大 小 。 对 c1 来 说 一 个 默认 的 无 参数 构造 函数 ??0c@@QAE@XZ 
会 被 调用 。 对 c2 来 说 另 一 个 ??0c@@QAE@HHG@Z 会 被 调用 ， 有 两 个 数字 会 被 作 
为 参数 传递 。 指向 对 象 的 指针 (CHAR this”) 会 被 通过 ECX 寄 存 器 传递 。 这 
被 叫做 thiscall (31.1.1) -- 这 是 一 个 指向 对 象 的 指针 传递 方式 。 MSVC 使 用 ECX 来 
传递 它 。 无 需 说 明 的 是 ， 它 并 不 是 一 个 标准 化 的 方法 ， 其 他 编译 器 可 能 用 其 他 方 
法 ， 例 如 通过 第 一 个 函数 参数 ， 比 如 GCC 就 是 这 么 做 的 。 为 什么 函数 的 名 字 这 么 
奇怪 ? 这 是 因为 名 字 打 碎 方 式 的 缘故 。C++ 类 可 能 有 多 个 同名 的 重 载 吕 数 ， 因 此 ， 
不 同 的 类 也 可 能 有 相同 的 函数 名 。 名 字 打 碎 可 以 把 类 的 类 名 + 兄 数 名 + 参数 类 型 编 
码 到 一 个 字符 串 里 面 ， 然 后 它 就 会 被 用 作 内 部 名 称 。 这 完全 是 因为 编译 器 和 DLL 
OS 加 载 器 都 不 知道 C++ 或 者 面向 对 象 的 缘故 。Dump() 有 函数 在 之 后 被 调用 了 2 次 。 
iE ARN A A 449 35 E CA RAG e 


_this$ = -4 ; size = 4 

??0C@@QAE@XZ PROC ; c::c, COMDAT 

; _this$ = ecx 

push ebp 

mov ebp, esp 

push ecx 

mov DWORD PTR _this$[ebp], ecx 

mov eax, DWORD PTR _this$[ebp] 

mov DWORD PTR [eax], 667 ; 0000029bH 
mov ecx, DWORD PTR _this$[ebp] 

mov DWORD PTR [ecx+4], 999 ; 000003e7H 
mov eax, DWORD PTR _this$[ebp] 

mov esp, ebp 

pop ebp 

ret 0 


??0cQQQAEQXZ ENDP ; c::c 
_this$ = -4 ; size = 4 

_a$ = 8 ; size = 4 

_b$ = 12 ; size = 4 
?30cQQQAEQHHQZ PROC ; c::c, COMDAT 
; .this$ - ecx 

push ebp 

mov ebp, esp 

push ecx 

mov DWORD PTR _this$[ebp], ecx 
mov eax, DWORD PTR _this$[ebp] 
mov ecx, DWORD PTR _a$[ebp] 
mov DWORD PTR [eax], ecx 

mov edx, DWORD PTR _this$[ebp] 
mov eax, DWORD PTR _b$[ebp] 
mov DWORD PTR [edx+4], eax 
mov eax, DWORD PTR _this$[ebp] 
mov esp, ebp 

pop ebp 

ret 8 

??0C@@QAE@HH@Z ENDP ; c::c 


构造 函数 只 是 函数 ， 它 们 会 使 用 ECX 中 存储 的 指向 结构 体 的 指针 ， 然 后 把 指针 指向 
自己 的 本 地 变量 ， 但 是 ， 这 个 操作 并 不 是 必须 的 。 对 C++ 标准 来 说 我 们 知道 构造 函 
RAL GREE io SKE > He BRAM HH Ol SM RAT > He 
“this” ° 现在 看 看 dump () 函数 : 


_this$ = -4 ; size = 4 

?dump@c@@QAEXXZ PROC ; c::dump, COMDAT 
; _this$ = ecx 

push ebp 

mov ebp, esp 

push ecx 

mov DWORD PTR _this$[ebp], ecx 

mov eax, DWORD PTR _this$[ebp] 

mov ecx, DWORD PTR [eax+4] 

push ecx 

mov edx, DWORD PTR _this$[ebp] 

mov eax, DWORD PTR [edx] 

push eax 

push OFFSET ??_C@_O7NJBDCIEC@?$CFd?$DL?5?$CFd?6?$AA@ 
call _printf 

add esp, 12 ; 0000000cH 

mov esp, ebp 

pop ebp 

ret 0 

?dump@c@@QAEXXZ ENDP ; c::dump 


简单 的 可 以 : dump() 会 把 带 有 2 个 int 的 结构 体 传 给 ecx， 然 后 从 他 里 面 取 出 2 个 值 ， 
然后 传 给 printf()。 如 果 使 用 /Ox 优化 ， 代 码 会 更 短 。 


??0cQQQAEQXZ PROC ; c::c, COMDAT 

; _this$ = ecx 

mov eax, ecx 

mov DWORD PTR [eax], 667 ; 0000029bH 
mov DWORD PTR [eax+4], 999 ; 000003e7H 
ret 0 

??0c@@QAE@XZ ENDP ; c::c 

cab Sls clc = 4 

_b$ = 12 ; size = 4 

?30cQQQAEQHHQZ PROC ; c::c, COMDAT 

; _this$ = ecx 

mov edx, DWORD PTR _b$[esp-4] 

mov eax, ecx 

mov ecx, DWORD PTR _a$[esp-4] 

mov DWORD PTR [eax], ecx 

mov DWORD PTR [eax+4], edx 

ret 8 

??0C@@QAE@HH@Z ENDP ; c::c 
?dump@c@@QAEXXZ PROC ; c::dump, COMDAT 
; _this$ = ecx 

mov eax, DWORD PTR [ecx+4] 

mov ecx, DWORD PTR [ecx] 

push eax 

push ecx 

push OFFSET ??_C@_O7NJBDCIEC@?$CFd?$DL?5?$CFd?6?$AA@ 
call _printf 

add esp, 12 ; 0000000cH 

ret 0 

?dump@c@@QAEXXZ ENDP ; c::dump 


还 要 说 的 就 是 栈 指针 在 调用 add esp ，x 之 后 并 不 正确 。 所 以 构造 函数 还 需要 ret 8 来 
返回 ， 而 不 是 ret。 这 是 因为 这 几 调 用 方式 是 thiscall (31.1.1) ,这 个 方法 会 使 用 栈 
来 传递 参数 ， 和 stdcall 对 比 (47.2) 来 看 ， 他 将 为 被 调用 者 维护 正确 的 栈 ， 而 不 是 
调用 者 。Ret X 指 令 会 额外 的 给 esp 加 上 X， 然 后 会 把 控制 流 交 还 给 调用 者 函数 。 调 
用 转换 见 47 章 。 还 有 需要 注意 的 是 ， 编 译 器 会 决定 什么 时 候 调 用 构造 函数 什么 时 候 
调用 析 构 亟 数 ， 但 是 我 们 从 c++ 语 言 基 础 里 面 已 经 知道 调用 时 机 了 。 


MSVC-x86-64 


像 我 们 已 经 知道 的 那样 ，x86-64 中 前 4 个 函数 参数 是 通过 RCX/RDX/R8/R9 寄 存 器 传 
递 的 ， 剩 余 的 通过 栈 传 递 。 但 是 this 是 用 RCX 传 递 的 ， 而 第 一 个 函数 参数 是 从 RDX 
开始 传递 的 。 我 们 可 以 通过 c(int a, int b) 这 个 函数 看 出 来 。 


; void dump() 

?dump@c@@QEAAXXZ PROC ; c::dump 

mov r8d, DWORD PTR [rcx+4] 

mov edx, DWORD PTR [rcx] 

lea rcx, OFFSET FLAT:?? CQ O7NJBDCIECQ?$CFd?$DL?5?$CFd?6?$AAQ ; 
'96d; 96d" 

jmp printf 

?dump@c@@QEAAXXZ ENDP ; c::dump 

; c(int a, int b) 

?30cQQQEAAQHHQZ PROC ; c::c 

mov DWORD PTR [rcx], edx ; ist argument: a 
mov DWORD PTR [rcx-4], r8d ; 2nd argument: b 
mov rax, rcx 

ret 0 

??0cQQQEAAQHHQZ ENDP ; c::c 

; default ctor 

??0cQQQEAAQXZ PROC ; c::c 

mov DWORD PTR [rcx], 667 ; 0000029bH 

mov DWORD PTR [rcx+4], 999 ; 000003e7H 
mov rax, rcx 

ret 0 

??0cQQQEAAQXZ ENDP ; c::c 


X64 中 ，lnt 数 据 类 型 依然 是 32 位 的 。 所 以 这 里 也 使 用 了 32 位 寄存 器 党 
以 看 到 dump() 里 的 JMP printf， 而 不 是 RET， 这 个 技巧 我 们 已 经 在 11.1.1 里 
了 。 


GCC-x86 


几乎 和 GCC4.4.1 一 样 的 结果 ， 除 了 几 个 例外 。 


public main 
main proc near ; DATA XREF: _start+17 


var 20 - dword ptr -20h 
var 1C = dword ptr -1Ch 
var 18 - dword ptr -18h 
var 10 - dword ptr -10h 


var 8 - dword ptr -8 

push ebp 

mov ebp, esp 

and esp, OFFFFFFFOh 

sub esp, 20h 

lea eax, [esp-*20h-var. 8] 
mov [esp-*20h-var 20], eax 
call _ZN1cCiEv 

mov [esp-*20h-var 18], 6 
mov [esp-*20h-var 1C], 5 
lea eax, [esp*20h-var 10] 
mov [esp-*20h-var 20], eax 
call _ZN1cC1E1ii 

lea eax, [esp+20h+var_8] 
mov [esp+20h+var_20], eax 
call ZNic4dumpEv 

lea eax, [esp+20h+var_10] 
mov [esp+20h+var_20], eax 
call ZNic4dumpEv 

mov eax, O 

leave 

retn 

main endp 


我 们 可 以 看 到 另 一 个 命名 破碎 模 式 ， 这 个 GNU 特 殊 的 模式 可 以 看 到 指向 对 象 的 this 
时 针 其 实 是 作为 函数 的 第 一 个 参数 被 传 入 的 ， 当 然 ， 这 个 对 程序 员 来 说 是 咀 明 的 。 
第 一 个 构造 函数 : 


public _ZN1cC1EV ; weak 
_ZN1icCiEv proc near ; CODE XREF: main+10 
arg O = dword ptr 8 

push ebp 

mov ebp, esp 

mov eax, [ebp+arg 0] 

mov dword ptr [eax], 667 
mov eax, [ebp+arg 0] 

mov dword ptr [eax-4], 999 
pop ebp 

retn 

_ZN1cC1EV endp 


他 所 做 的 无 非 就 是 使 用 第 一 个 传 来 的 参数 写 入 两 个 数字 。 第 二 个 构造 函数 : 


public _ZN1cC1Eii 
_ZNicC1Eii proc near 


arg 0 = dword ptr 8 
arg 4 = dword ptr OCh 
arg_8 = dword ptr 10h 
push ebp 


mov ebp, esp 

mov eax, [ebp+arg 0] 
mov edx, [ebp+arg_ 4] 
mov [eax], edx 

mov eax, [ebp+arg 0] 
mov edx, [ebp+arg 8] 
mov [eax+4], edx 

pop ebp 

retn 

 ZN1cCiEii endp 


这 是 个 函数 ， 原 型 类 似 于 : 


void ZN1cC1Eii (int *obj, int a, int b) 


*obj-a; 
* (obj *1)-b; 
3 


这 是 完全 可 以 预测 到 的 ， 现 在 看 看 dump () 


public _ZNic4dumpEv 
_ZNic4dumpEv proc near 
var_18 = dword ptr -18h 
var_14 dword ptr -14h 
var_10 dword ptr -10h 
arg O = dword ptr 8 

push ebp 

mov ebp, esp 

sub esp, 18h 

mov eax, [ebp+arg 0] 

mov edx, [eax+4] 

mov eax, [ebp+arg 0] 

mov eax, [eax] 

mov [esp+i8h+var_10], edx 
mov [esp+i8h+var_14], eax 


mov [esp+i8h+var_18], offset aDD ; "%d; 96d 


call _printf 
leave 

retn 

_ZNic4dumpEv endp 


在 这 个 防 数 的 内 部 表达 中 有 一 个 单独 的 参数 ， 被 用 作 指 向 当前 对 象 ， 也 即 this。 A 
此 ， 如 果 从 这 些 简 单 的 例子 来 看 ，MSVC 和 GCC 的 区 别 也 就 只 有 函数 名 编码 的 区 别 
和 传 入 this 指 针 的 区 别 (ECX 寄 存 器 或 通过 第 一 个 参数 ) © 


GCC-X86-64 


前 6 个 参数 ， 过 RDI/RSI/RDX/RCX/R8/R9[21 章 ] 的 顺序 传递 ，this 指 针 会 通过 第 
D RD: 我 们 可 以 接着 看 到 。 Int 数 据 类 型 也 是 一 个 32 位 的 数据 ，JMP 替 换 
RET 的 技巧 这 里 也 用 到 了 。 


; default ctor 

_ZN1cC2Ev: 

mov DWORD PTR [rdi], 667 
mov DWORD PTR [rdi+4], 999 
ret 

(lint e NE o) 
_ZN1cC2Eii: 

mov DWORD PTR [rdi], esi 
mov DWORD PTR [rdi+4], edx 
ret 

; dump() 

_ZN1ic4dumpEv: 

mov edx, DWORD PTR [rdi+4] 
mov esi, DWORD PTR [rdi] 
XOr eax, eax 

mov edi, OFFSET FLAT:.LCO ; "%d; %d 


jmp printf 


51.1.2 类 继承 


可 以 说 关于 类 继承 就 是 我 们 已 经 研究 了 的 这 个 结构 体 ， 但 是 它 现 在 扩展 成 类 了 。 让 
我 们 看 个 简单 的 例子 : 


#include <stdio.h> 
class object 


{ 

public: 

int color; 

object() { }; 

object (int color) { this->color=color; }; 
void print_color() { printf ("color=%d 
dos Core e 

class box : public object 

i . 

private: 

int width, height, depth; 

public: 


box(int color, int width, int height, int depth) 


this->color=color; 
this ->width=width; 
this->height=height; 
this ->depth=depth; 


J; 
void dump() 
{ 


printf ("this is box. color=%d, width=%d, height=%d, depth=%d 
", color, width, 
height, depth); 
u 
ir 
class sphere : public object 
{ . 
private: 
int radius; 
public: 
sphere(int color, int radius) 


this->color=color; 
this->radius=radius; 
J; 
void dump() 
{ 


printf ("this is sphere. color=%d, radius=%d", color, radius 


);}; 
}; 
int main() 


box b(1, 10, 20, 30); 
sphere s(2, 40); 
b.print color(); 
s.print color(); 
b.dump(); 

s.dump(); 

return 0; 


HH 


让 我 们 观察 一 下 生成 的 dump() 的 代码 和 object::print_color()， 让 我 们 看 看 结构 体 对 
象 的 内 存 输 出 (作为 32 位 代码 ) 所 以 ，dump() 方 法 其 实 是 对 应 了 好 几 个 类 ， 下 面 
代码 由 MSVC 2008 生 成 (/Ox*/ObO) 优化 的 MSVC 2008 /Ob0 


?? CQ O9GCEDOLPAQcolor?$DN?$CFd?6?$AAQ DB ‘color=%d’, OaH, OOH ; 
‘string’ 

?print_color@object@@QAEXXZ PROC ; object::print_color, COMDAT 

; _this$ = ecx 

mov eax, DWORD PTR [ecx] 

push eax 

; ‘color=%d’, OaH, 00H 

push OFFSET ?? CQ O9GCEDOLPAQcOlor?$DN?$CFd?6?$AAQ 

call _printf 

add esp, 8 

ret 0 

?print colorQobjectQQQAEXXZ ENDP ; object: :print_color 


优化 的 MSVC2008 /Ob0 


?dump@box@@QAEXXZ PROC ; box::dump, COMDAT 

; .this$ - ecx 

mov eax, DWORD PTR [ecx+12] 

mov edx, DWORD PTR [ecx+8] 

push eax 

mov eax, DWORD PTR [ecx+4] 

mov ecx, DWORD PTR [ecx] 

push edx 

push eax 

push ecx 

; ‘this is box. color=%d, width=%d, height=%d, depth=%d’, O0aH, © 
OH ; ‘string’ 

push OFFSET ?? CQ _ODG@NCNGAADL@this?5is?5b0x?4?5color?$DN?$CFd?0 
?5width?$DN?$CFd?0Q 

call _printf 

add esp, 20 ; 00000014H 

ret O 

?dump@box@@QAEXXZ ENDP ; box::dump 


?dump@sphere@@QAEXXZ PROC ; sphere::dump, COMDAT 
; .this$ = ecx 

mov eax, DWORD PTR [ecx+4] 

mov ecx, DWORD PTR [ecx] 

push eax 

push ecx 

; ‘this is sphere. color=%d, radius=%d’, OaH, 00H 
push OFFSET ?? CQ OCFQEFEDJLDCQthis?5is?5sphere?4?5color?$DN?$CF 
d?0?5radiusQ 

call _printf 

add esp, 12 ; 0000000cH 

ret O 

?dump@sphere@@QAEXXZ ENDP ; sphere::dump 


所 以 ， 这 就 是 他 的 内 存 暑 促 后 : (RE) 


[offset [ despription | 
*Ox9 | intcolor | 


2E AK AQ 53 Be Box : 


description 
oxo [intcoor | 
Int width 


[oxa int height] 





Sphere: 


description 
Int radius 


ik A A A main() Hath : 


PUBLIC _main 
_ TEXT SEGMENT 


_S$ = -24 ; size = 8 
_b$ = -16 ; size = 16 
_main PROC 


sub esp, 24 ; 00000018H 

push 30 ; 0000001eH 

push 20 ; 00000014H 

push 10 ; 0000000aH 

push 1 

lea ecx, DWORD PTR _b$[esp+40] 

call ??0boxQQQAEQHHHHQZ ; box: :box 

push 40 ; 00000028H 

push 2 

lea ecx, DWORD PTR _s$[esp+32] 

call ??0sphere@@QAE@HH@Z ; sphere: :sphere 
lea ecx, DWORD PTR _b$[esp+24] 

call ?print colorQobjectQQQAEXXZ ; object 
lea ecx, DWORD PTR _s$[esp+24] 

call ?print colorQobjectQQQAEXXZ ; object 
lea ecx, DWORD PTR _b$[esp+24] 

call ?dump@box@@QAEXXZ ; box::dump 

lea ecx, DWORD PTR _s$[esp+24] 

call ?dump@sphere@@QAEXXZ ; sphere: :dump 
xor eax, eax 

add esp, 24 ; 00000018H 

ret 0 

_main ENDP 


继承 的 类 必须 永远 将 它们 的 范围 添加 到 基 类 的 范围 中 
对 其 范围 生效 。 当 object::print_color() 方 法 被 调用 时 


::print_color 


: :print_color 


|^ 所 以 这 样 可 以 让 基 类 的 方法 
， 会 有 一 个 指针 指向 box 对 象 


和 sphere 对 象 会 被 传递 进去 ， 它 就 是 "this"。 它 可 以 和 这 些 对 象 简单 的 互动 ， 因 为 
color 域 指向 的 永远 是 固定 的 地 址 (+0x00 偏 移 ) 。 可 以 说 ，object::print color() 7 


法 对 于 输入 对 象 类 型 来 说 是 不 可 知 的 ， 如 果 你 创建 一 个 继承 类 ， 例 如 继承 了 box 类 
编译 器 会 自动 在 depth 域 之 后 加 上 新 域 ， 而 把 box 的 类 域 固定 在 一 个 国定 的 位 置 。 A 
此 ，box::dump() 方 法 会 在 访问 colorwidth/height/depths 的 时 候 顺利 工作 ， 因 为 地 址 
的 国定 ， 它 会 很 容易 的 知道 偏 移 。 GCC 生成 的 代码 基本 一 样 ， 只 有 一 个 不 一 样 的 
就 是 this 的 传递 ， 就 像 之 前 说 的 一 样 ， 它 是 作为 第 一 个 参数 传递 的 ， 而 不 是 通过 
ECX 传 递 的 。 


51..13 封装 


封装 是 一 个 把 数据 装 在 类 的 private 域 里 面 的 动作 ， 这 样 会 让 它们 只 能 从 类 的 内 部 被 
访问 到 ， 而 从 外 面 访问 不 到 。 但 是 ， 生 成 的 代码 里 面 是 否 有 什么 东西 指示 一 个 变量 
是 private 呢 ?没有 ， 让 我 们 看 看 简单 的 例子 : 


#include «stdio.h» 

class box 

{ . 

private: 

int color, width, height, depth; 

public: 

box(int color, int width, int height, int depth) 


this->color=color; 
this ->width=width; 
this->height=height; 
this->depth=depth; 


J; 
void dump() 


{ 

printf ("this is box. color=%d, width=%d, height=%d, depth=%d 
", color, width, 

height, depth); 

3 

}; 


在 MSVC 2008+/Ox 和 /Ob0 选 项 ， 然 后 看 看 box::dump() 代 码 : 


?dump@box@@QAEXXZ PROC ; box::dump, COMDAT 

; _this$ = ecx 

mov eax, DWORD PTR [ecx+12] 

mov edx, DWORD PTR [ecx+8] 

push eax 

mov eax, DWORD PTR [ecx+4] 

mov ecx, DWORD PTR [ecx] 

push edx 

push eax 

push ecx 

; ‘this is box. color=%d, width=%d, height=%d, depth=%d’, O0aH, © 
OH 

push OFFSET ?? CQ _ODG@NCNGAADL@this?5is?5b0x?4?5color?$DN?$CFd?0 
?5width?$DN?$CFd?0Q 

call _printf 

add esp, 20 ; 00000014H 

ret 0 

?dump@box@@QAEXXZ ENDP ; box: :dump 


这 就 是 类 的 内 存 分 布 : 


description 
[0x0 | ntcolor | 
Int width 


[0x8 [int height | 
[Foxe [int depth | 





所 有 域 都 不 允许 其 他 类 的 访问 ， 但 是 ， 我 们 知道 这 个 存放 方式 之 后 是 否 可 以 修改 这 
X? 所 以 我 加 了 hack_oop_encapsulation() 函 数 ， 假 设 他 有 这 个 代码 ， 当 然 我 们 
没有 编译 : 


void hack oop encapsulation(class box * o) 


t 

o->width=1; // that code can't be compiled: "error C2248: 'b 
ox::width' : cannot access 

private member declared in class 'box'" 


HH 


还 有 ， 如 果 要 转换 box 的 类 型 ， 把 它 从 指针 转 为 int 数 组 ， 然 后 如 果 我 们 能 修改 这 些 
数字 ， 那 么 我 们 就 成 功 了 。 


void hack oop encapsulation(class box * o) 
{ 
unsigned int *ptr_to_object=reinterpret_cast<unsigned int*>( 


0); 
ptr to object[1]-123; 
J; 


这 个 有 函数 的 代码 非常 简单 ， 齐 说 函数 指示 把 指针 指向 这 些 int， 然 后 把 123 写 入 第 二 
个 int : 


?hack_oop_encapsulation@@YAXPAVbox@@@Z PROC ; hack oop encapsula 
tion 

mov eax, DWORD PTR _o$[esp-4] 

mov DWORD PTR [eax+4], 123 ; 0000007bH 

ret 0 


?hack_oop_encapsulation@@YAXPAVbox@@@Z ENDP ; hack oop encapsula 
tion 


看 看 它 是 怎么 工作 的 : 


int main() 


{ 
box b(1, 10, 20, 30); 
b.dump(); 
hack oop encapsulation(&b); 
b.dump(); 
return 0; 

3 

运行 后 : 


this is box. color=1, width=10, height-20, depth=30 
this is box. color=1, width=123, height=20, depth=30 


可 以 看 到 ，private 只 是 在 编译 阶段 被 保护 了 ，Cc++ 编 译 器 不 会 允许 其 他 代码 修改 
private 域 下 的 内 容 ， 但 是 如 果 用 一 些 技巧 ， 就 可 以 修改 private 的 值 。 


51.1.4 多 重 继承 


多 重 继承 是 一 个 类 的 创建 ， 这 个 类 会 从 2 个 或 多 个 类 里 面 继承 函数 和 成 员 。 看 一 个 
简单 的 例子 : 


Zinclude «stdio.h» 


class box 
{ 
public: 
int width, height, depth; 
box() { }; 
box(int width, int height, int depth) 
{ 


this ->width=width; 
this->height=height; 
this ->depth=depth; 


3 
void dump() 
t 


printf ("this is box. width=%d, height=%d, depth=%d", wi 
dth, height, depth); 


3 
int get volume() 
{ 
return width * height * depth; 
}; 
}; 
class solid object 
{ 
public: 
int density; 
solid object() { Y; 
solid object(int density) 
{ 
this->density=density; 
3 
int get density() 
f 
return density; 
3 
void dump() 
{ 
printf ("this is solid object. density=%d", density); 
3 
3 
class solid box: box, solid object 
{ 
public: 


solid_box (int width, int height, int depth, int density) 
{ 
this->width=width; 
this->height=height; 
this->depth=depth; 
this->density=density; 
}; 
void dump() 
{ 


printf ("this is solid box. width=%d, height=%d, depth=% 
d, density=%d", width, height, depth, density); 
J; 
int get_weight() { return get_volume() * get_density(); }; 


box b(10, 20, 30); 
solid_object so(100); 
solid_box sb(10, 20, 30, 3); 
b.dump(); 

so.dump( ); 


sb.dump(); 
printf ("%d", sb.get weight()); 
return 0; 


) 


让 我 们 在 MSVC 2008 中 用 /Ox 和 /Ob0 选 项 来 编译 ， 然 后 看 看 box::dump()、 
solid object:dump()fesolid box::dump() 55 ak Ra : 


?dump@box@@QAEXXZ PROC ; box::dump, COMDAT 

; .this$ = ecx 

mov eax, DWORD PTR [ecx+8] 

mov edx, DWORD PTR [ecx+4] 

push eax 

mov eax, DWORD PTR [ecx] 

push edx 

push eax 

; ‘this is box. width=%d, height=%d, depth=%d’, QaH, OOH 
push OFFSET ??_C@_OCM@DIKPHDFI@this?5is?5box?4?5width?$DN?$CFd?0 
?5height?$DN?$CFdQ 

call _printf 

add esp, 16 ; 00000010H 

ret 0 

?dump@box@@QAEXXZ ENDP ; box: :dump 


?dump@solid_object@@QAEXXZ PROC ; solid_object::dump, COMDAT 
; _this$ = ecx 

mov eax, DWORD PTR [ecx] 

push eax 

; ‘this is solid object. density=%d’, OaH 

push OFFSET ?? CQ OCCOKICFJINLQthis?5is?5solid object?4?5density 
?$DN?$CFdQ 

call _printf 

add esp, 8 

ret 0 

?dump@solid_object@@QAEXXZ ENDP ; solid object: :dump 


?dump@solid_box@@QAEXXZ PROC ; solid box::dump, COMDAT 

; _this$ = ecx 

mov eax, DWORD PTR [ecx+12] 

mov edx, DWORD PTR [ecx+8] 

push eax 

mov eax, DWORD PTR [ecx+4] 

mov ecx, DWORD PTR [ecx] 

push edx 

push eax 

push ecx 

; ‘this is solid box. width=%d, height=%d, depth=%d, density=%d’ 
, OaH 

push OFFSET ?? CQ ODOQHNCNIHNNQthis?5is?5solid box?4?5width?$DN? 
$CFd?0?5heiQ 

call _printf 

add esp, 20 ; 00000014H 

ret O 

?dump@solid_box@@QAEXXZ ENDP ; solid box::dump 


所 以 ， 这 三 个 类 的 内 存 分 布 是 : 


Box : 


description 


[as [depth — | 


depth 


Solid object : 


offset 
0x0 





Box::get_volume()4*solid_object::get_density() $ žr 49 A de TF : 


?get_volume@box@@QAEHXZ PROC ; box::get_volume, COMDAT 
; _this$ = ecx 

mov eax, DWORD PTR [ecx+8] 

imul eax, DWORD PTR [ecx+4] 

imul eax, DWORD PTR [ecx] 

ret 0 

?get_volume@box@@QAEHXZ ENDP ; box::get_volume 


?get_density@solid_object@@QAEHXZ PROC ; solid_object::get_densi 
ty, COMDAT 

; _this$ = ecx 

mov eax, DWORD PTR [ecx] 

ret 0 

?get_density@solid_object@@QAEHXZ ENDP ; solid_object::get_densi 
ty 


但 是 solid_box::get_ weight() 的 代码 更 有 趣 : 


?get weightQsolid boxQQQAEHXZ PROC ; solid box::get weight, COMD 
AT 

; .this$ - ecx 

push esi 

mov esi, ecx 

push edi 

lea ecx, DWORD PTR [esi-*12] 

call ?get_density@solid_object@@QAEHXZ ; solid object::get densi 


mov edi, eax 

call ?get volumeQboxQQQAEHXZ ; box::get volume 

imul eax, edi 

pop edi 

pop esi 

ret 0 

?get_weight@solid_box@@QAEHXZ ENDP ; solid box::get weight 


Get. weight() Zt A 2-78 8 24 Z^ 127% x T get. volume() 来 说 ， 他 只 是 传递 指针 
给 this， 对 get_density() 来 说 ， 他 指示 传递 指针 给 this， 同 时 移 位 12 (OxC) FF > 
然后 在 solid_box 类 的 内 存 空间 理 ，solid_object 类 开始 了 。 因此 ， 

solid object:get density() 方 法 相信 它 正 在 处 理 普通 的 solid_object 类 ， 而 且 
box:get volume 类 将 对 它 的 3 个 域 生效 ， 而 且 相 信 这 是 普通 的 box 类 对 象 。 因此， 
我 们 可 以 说 ， 类 的 一 个 对 象 ， 是 从 多 个 其 他 类 继承 阿 日 来 ， 在 内 存 中 代表 着 组 合 起 
来 的 类 ， 因 为 它 有 所 有 继承 来 的 域 。 每 个 继承 的 方法 都 会 又 一 个 指向 对 应 结构 部 分 
的 指针 来 处 理 。 


51.1.5 虚拟 方法 
还 有 一 个 简单 的 例子 : 


#include <stdio.h> 
class object 


{ 
public: 
int color; 


object() { }; 
object (int color) { this->color=color; }; 
virtual void dump() 


printf ("color=%d", color); 


, 


3 
class box : public object 
i H 
private: 
int width, height, depth; 
public: 


box(int color, int width, int height, int depth) 


this->color=color; 
this ->width=width; 
this->height=height; 
this ->depth=depth; 
3 
void dump() 


printf ("this is box. color=%d, width=%d, height=%d, dep 

th=%d", color, width,height, depth); 

3 
3 
class sphere : public object 
i H 
private: 

int radius; 
public: 

sphere(int color, int radius) 


this->color=color; 
this->radius=radius; 
}; 
void dump() 
{ 


printf ("this is sphere. color=%d, radius=%d", color, radius 
iti 
3 


int main() 


box b(1, 10, 20, 30); 
sphere s(2, 40); 
object *oi-&b; 

object *o2-&s; 
01-»dump(); 
02-»dump( ); 

return 0; 


Hh 


类 object 有 一 个 上 庶 函 数 dump()， 被 box 和 sphere 类 继承 者 替换 。 如 果 在 一 个 并 不 知 
道 什么 类 型 是 什么 对 象 的 环境 下 ， 就 像 在 main() 这 个 函数 里 面 一 样 ， 关 一 个 上 庶 函 数 
dump() 被 调用 的 时 候 ， 我 们 还 是 需要 知道 它 的 返回 类 型 的 。 让 我 们 在 MSVC2008 
用 /Ox 、/Ob0 编 译 看 看 main() 的 函数 代码 : 


Egone 32 Size 
_b$ = -20 ; size 


main PROC 


12 
20 


sub esp, 32 ; 00000020H 
push 30 ; 0000001eH 
push 20 ; 00000014H 
push 10 ; 0000000aH 


push 1 
lea ecx, DWORD 


PTR b$[esp-*48] 


call ??0boxQQQAEQHHHHQZ ; box::box 
push 40 ; 00000028H 


push 2 
lea ecx, DWORD 


PTR | s$[esp-*40] 


call ??0sphere@@QAE@HH@Z ; sphere::sphere 


mov eax, DWORD 
mov edx, DWORD 
lea ecx, DWORD 
call edx 

mov eax, DWORD 
mov edx, DWORD 
lea ecx, DWORD 
call edx 

xor eax, eax 
add esp, 32 ; 
ret 0 

_main ENDP 


PTR b$[esp-*32] 
PTR [eax] 
PTR b$[esp-*32] 


PTR _s$[esp+32] 
PTR [eax] 
PTR _s$[esp+32] 


00000020H 


#4 dump) AR HAE IK hat BAY RRE T > OS AR HAL HY HAL SLT 
呢 ? 只 有 在 构造 函数 中 有 可 能 : 其 他 地 方 都 不 会 被 main() 调 用 。 看 看 类 构造 函数 的 


代码 : 


?? RO?AVboxQQ08 DD FLAT:??_7type_info@@6B@ ; box 'RTTI Type Desc 
riIptor 

DD 00H 

DB '.?AVboxQQ', OOH 

?? R1AQ?OAQEAQboxQQ8 DD FLAT:?? RO?AVboxQQQ8 ; box::'RTTI Base C 
lass Descriptor at 

(0, -1,0,64)' 

DD 01H 

DD OOH 

DD OffffffffH 

DD OOH 

DD 040H 

DD FLAT:??_R3b0x@@8 

??_R2box@@8 DD FLAT:??_R1A@?0A@EA@box@@8 ; box::‘RTTI Base Class 
Array’ 

DD FLAT: ??_R1A@?0A@EA@obj ect@@8 

??_R3bo0x@@8 DD OOH ; box::'RTTI Class Hierarchy Descriptor’ 
DD OOH 

DD 02H 

DD FLAT:??_R2box@@8 

?? RAboxQQ6BQO DD OOH ; box::'RTTI Complete Object Locator’ 
DD OOH 

DD OOH 

DD FLAT:?? RO?AVboxQ008 

DD FLAT:??_R3bo0x@@8 

??_7box@@6B@ DD FLAT:??_R4box@@6B@ ; box::'vftable' 

DD FLAT:?dumpQboxQQUAEXXZ 

.color$ = 8 ; size = 4 

_width$ 12 ; size = 4 

_height$ = 16 ; size = 4 

_depth$ = 20 ; size = 4 

??0b0x@@QAE@HHHH@Z PROC ; box::box, COMDAT 

; .this$ = ecx 

push esi 

mov esi, ecx 

call ??00bject@@QAE@XZ ; object::object 

mov eax, DWORD PTR _color$[esp] 

mov ecx, DWORD PTR _width$[esp] 

mov edx, DWORD PTR _height$[esp] 

mov DWORD PTR [esi-4], eax 

mov eax, DWORD PTR _depth$[esp] 

mov DWORD PTR [esi-16], eax 

mov DWORD PTR [esi], OFFSET ?? 7boxQQ6BQ 

mov DWORD PTR [esi+8], ecx 

mov DWORD PTR [esi+12], edx 

mov eax, esi 

pop esi 

ret 16 ; 00000010H 

??0b0x@@QAE@HHHH@Z ENDP ; box: :box 


我 们 可 以 看 到 一 些 轻微 的 内 存 布 局 的 变化 : 第 一 个 域 是 一 个 指向 box::vftable (这 个 
名 字 由 MSVC 编 译 器 生成 ) 的 指针 。 在 这 个 函数 表 里 我 们 看 到 了 一 个 指向 
box::RTTI Complete Object Locator 的 连接 ， 而 且 还 有 一 个 指向 box::dump() 函 数 
的 。 所 以 这 就 是 被 命名 的 虚 函 数 表 和 RTTI。 虚 济 数 表 可 以 包含 所 有 虚 函 数 体 的 地 
址 ，RTTI 表 包含 类 型 的 信息 。 另 外 一 提 ，RTTI 表 是 c++ 调用 dynamic_cast 和 typeid 
的 结果 的 枚 举 表 。 你 可 以 看 到 这 里 函数 名 是 用 明文 表 记 的 。 因 此 ， 一 个 基 对 象 可 以 
调用 上 庶 函 数 object::dump()， 然 后 ， 会 从 这 个 对 象 的 结构 里 调用 这 个 继承 类 的 函数 。 
枚 举 这 些 函 数 表 需要 消耗 额外 的 CPU 时 间 ， 所 以 可 以 认为 庶 函 数 比 普通 调用 要 慢 一 
些 。 在 GCC 生成 的 代码 里 ，RTTI 表 的 构造 有 些 轻 微 的 不 同 。 
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1642Windows 


16 位 windows 程 序 现在 很 少见 了 ， 但 是 在 旧式 计算 机 或 者 入 侵 软件 狗 的 时 候 (58 
章 ) ， 我 有 时 候 还 会 遇 到 这 个 问题 。 16 位 的 windows 版 本 最 高 到 3.11，95(* 注 : TE 
者 笔 误 写成 了 Win96)/98/ME 也 支持 16 位 代码 ， 他 们 同时 也 是 一 个 Windows NT 家 族 
的 32 位 版 本 。64 位 版 本 的 Windows NT 家 族 完 全 不 支持 16 位 程序 。 代码 类 似 于 MS- 
DOS 代 码 。 执行 文件 并 不 是 MZ 式 或 者 PE 文件 ， 而 是 NE 式 (所 谓 的 “New 
Executable”， 新 执行 程序 ) 。 所 有 的 例子 都 由 OpenWatcom 1.9 编 译 器 编译 ， 使 用 
这 些 参数 : 


Wcl.exe -i=C:/WATCOM/h/win/ -s -os -bt-windows example.c 


53.1 例子 #1 


Zinclude <windows.h> 
int PASCAL WinMain(HINSTANCE hInstance, HINSTANCE hPrevInstance, 
LPSTR lpCmdLine, int nCmdShow) 
{ 
MessageBeep(MB ICONEXCLAMATION); 
return 0; 


i 


WinMain proc near 
push bp 
mov bp, sp 
mov ax, 30h ; 'O' ; MB ICONEXCLAMATION constant 
push ax 
call MESSAGEBEEP 
xor ax, ax , return 0 
pop bp 
retn OAh 
WinMain endp 


到 现在 为 止 ， 看 起 来 都 很 简单 。 


53.2 例子 #2 


#include <windows.h> 
int PASCAL WinMain(HINSTANCE hInstance, HINSTANCE hPrevInstance, 
LPSTR lpCmdLine, int nCmdShow) 


{ 
MessageBox (NULL, "hello, world", "caption", MB YESNOCANCEL) 


, 


Hh 


return 0; 


WinMain proc near 
push bp 
mov bp, sp 
Xor ax, ax ; NULL 
push ax 
push ds 
mov ax, offset aHelloworld ; 0x18. "hello, world" 
push ax 
push ds 
mov ax, offset aCaption ; 0x10. "caption" 
push ax 
mov ax, 3 ; MB YESNOCANCEL 
push ax 
call MESSAGEBOX 
xor ax, ax , return 0 
pop bp 
retn OAh 
WinMain endp 
dseg02:0010 aCaption db 'caption',0O 
dseg02:0018 aHelloWorld db ‘hello, world',0 


有 两 个 重要 的 信息 : PASCAL 调 用 转换 表明 先 传递 最 后 的 参数 

(MB YESNOCANCEL) ， 然 后 才 是 第 一 个 参数 NULL。 这 个 调用 也 表明 了 调用 者 
恢复 栈 指针 : 因为 RETN 有 一 个 0Ah 的 参数 ， 这 个 意味 着 栈 指 针 将 在 函数 退出 时 上 
移 10 个 字 节 。 指针 按 对 传递 : 一 组 数据 先 传递 ， 指 针 就 在 这 组 数据 里 面 。 例 子 这 里 
只 有 一 组 数据 ， 所 以 DS 永远 指向 可 执行 文件 的 data 段 。 


53.3 例子 #3 


#include <windows.h> 
int PASCAL WinMain(HINSTANCE hInstance, HINSTANCE hPrevInstance, 
LPSTR lpCmdLine, int nCmdShow) 


{ 
int result=MessageBox (NULL, "hello, world", "caption", MB Y 
ESNOCANCEL) ; 
if (result==IDCANCEL ) 
MessageBox (NULL, "you pressed cancel", "caption", MB_OK 
); 
else if (result--IDYES) 
MessageBox (NULL, "you pressed yes", "caption", MB OK); 
else if (result--IDNO) 
MessageBox (NULL, "you pressed no", "caption", MB OK); 
return 0; 


m 


WinMain proc near 
push bp 
mov bp, sp 
xor ax, ax ; NULL 
push ax 
push ds 
mov ax, offset aHelloWorld ; "hello, world" 
push ax 
push ds 
mov ax, offset aCaption ; "caption" 
push ax 
mov ax, 3 ; MB YESNOCANCEL 
push ax 
call MESSAGEBOX 
cmp ax, 2 ; IDCANCEL 
jnz short loc 2F 
xor ax, ax 
push ax 
push ds 
mov ax, offset aYouPressedCanc ; "you pressed cancel" 
jmp short loc 49 


loc 2F: 

cmp ax, 6 ; IDYES 

jnz short loc 3D 

xor ax, ax 

push ax 

push ds 

mov ax, offset aYouPressedYes ; "you pressed yes" 
jmp short loc 49 


cmp ax, 7 ; IDNO 
jnz short loc_57 
XOr ax, ax 
push ax 
push ds 
mov ax, offset aYouPressedNo ; "you pressed no" 
loc_49: 
push ax 
push ds 
mov ax, offset aCaption ; "caption" 
push ax 
xor ax, ax 
push ax 
call MESSAGEBOX 
loc 57: 
xor ax, ax 
pop bp 
retn OAh 
WinMain endp 


就 是 前 一 节 的 扩展 而 已 。 
53.4 例子 #4 


#include <windows.h> 
int PASCAL func1 (int a, int b, int c) 


{ 
return a*b+c; 
3 
long PASCAL func2 (long a, long b, long c) 
{ 
return a*b+c; 
3 


long PASCAL func3 (long a, long b, long c, int d) 
{ 


Po 


int PASCAL WinMain(HINSTANCE hInstance, HINSTANCE hPrevInstance, 
LPSTR lpCmdLine, int nCmdShow) 


return a*btc-d; 


{ 
funci (123, 456, 789); 
func2 (600000, 700000, 800000); 
func3 (600000, 700000, 800000, 123); 
return 0; 

J; 


funci proc near 


C 
b 
a 


word ptr 4 
word ptr 6 
word ptr 8 


push bp 


mov 
mov 


bp, sp 
ax, [bp*a] 


imul [bp+b] 


add 
pop 


ax, [bp*c] 
bp 


retn 6 
funci endp 
func2 proc near 


mov 


word ptr 4 
word ptr 6 
word ptr 8 
word ptr OAh 
word ptr OCh 
word ptr OEh 


bp, sp 

ax, [bp-*arg 8] 
dx, [bp-*arg A] 
bx, [bp-*arg 4] 
cx, [bp-*arg 6] 


call sub B2 ; long 32-bit multiplication 


add ax, [bp+arg 0] 
adc dx, [bp-*arg 2] 
pop bp 
retn 12 

func2 endp 

func3 proc near 
arg O = word ptr 4 
arg 2 - word ptr 6 
arg 4 = word ptr 8 
arg 6 = word ptr OAh 
arg 8 - word ptr OCh 
arg A - word ptr OEh 
arg C - word ptr 10h 
push bp 
mov bp, sp 
mov ax, [bptarg A] 
mov dx, [bp-«arg C] 
mov bx, [bptarg 6] 
mov cx, [bptarg 8] 


call sub B2 ; long 32-bit multiplication 


mov 
add 
mov 
adc 
mov 
cwd 
sub 
mov 


cx, [bp-*arg 2] 

CX, ax 

bx, [bp-*arg 4] 

bx, dx ; BX-high part, CX-low part 
ax, [bp-*arg 0] 

; AX-low part d, DX-high part d 
CX, ax 

ax, CX 


sbb bx, dx 
mov dx, bx 
pop bp 
retn 14 
func3 endp 
WinMain proc near 
push bp 
mov bp, sp 
mov ax, 123 
push ax 
mov ax, 456 
push ax 
mov ax, 789 
push ax 
call funci 
mov ax, 9 ; high part of 600000 
push ax 
mov ax, 27COh ; low part of 600000 
push ax 
mov ax, OAh ; high part of 700000 
push ax 
mov ax, OAE60h ; low part of 700000 
push ax 
mov ax, OCh ; high part of 800000 
push ax 
mov ax, 3500h ; low part of 800000 
push ax 
call func2 
mov ax, 9 ; high part of 600000 
push ax 
mov ax, 27COh ; low part of 600000 
push ax 
mov ax, OAh ; high part of 700000 
push ax 
mov ax, OAE60h ; low part of 700000 
push ax 
mov ax, OCh ; high part of 800000 
push ax 
mov ax, 3500h ; low part of 800000 
push ax 
mov ax, 7Bh ; 123 
push ax 
call func3 
xor ax, ax , return 0 
pop bp 
retn OAh 
WinMain endp 


32 位 的 值 (long 数 据 类 型 代表 32 位 ，int 代 表 16 位 数据 ) 在 16 位 模式 下 (MSDOS 和 
win16) 都 会 按 对 传递 ， 就 像 64 位 数据 在 32 位 环境 下 使 用 的 方式 一 样 (21 章 ) 。 


Sub _B2 在 这 里 是 一 个 编译 器 生成 的 库 函 数 ， 他 的 作用 是 “long 乘法 ”， 例 如 两 个 32 位 
类 型 想 成 ， 其 他 的 编译 器 函数 列 在 了 附录 E, D. 中 。ADD/ADC 指 令 对 用 来 相 加 两 个 
值 : ADD 将 设置 /清空 CF 进位 标识 ，ADC 将 会 使 用 它 。SUB/SBB 将 会 做 减法 ， 
SUB 会 设置 /清空 CF 标识 位 ，SBB 将 会 使 用 它 。32 位 值 按 照 DX:AX 寄 存 器 对 返回 。 
常数 同样 在 WinMain() 中 按照 值 对 的 方式 传递 。 Int 类 型 的 123 常 量 首 先 被 转 为 32 位 
的 值 ， 使 用 的 是 CWD 指 令 。 


53.5 例子 #5 


#include <windows.h> 
int PASCAL string compare (char *s1, char *s2) 


while (1) 
{ 
if (*si1!-*s2) 
return 0; 
if (*si--0 || *s2==0) 
return 1; // end of string 
Sit+; 
S2t++; 
s 
u 


int PASCAL string compare far (char far *s1, char far *s2) 


while (1) 
{ 
if (*s1!=*s2) 
return 0; 
if (*s1==0 || *s2==0) 
return 1; // end of string 


Sit+; 
S2++; 
}; 
}; 
void PASCAL remove digits (char *s) 
while (*s) 
{ 


if (*s»2'0' && *s«-'9') 


dece s 
SES UE E 


H 


char str[]-"hello 1234 world"; 
int PASCAL WinMain(HINSTANCE hInstance, HINSTANCE hPrevInstance, 
LPSTR lpCmdLine, int nCmdShow) 


{ 
string_compare ("asd", "def"); 
string compare far ("asd", "def"); 
remove digits (str); 
MessageBox (NULL, str, "caption", MB YESNOCANCEL); 
return 0; 
3 


string compare proc near 
arg O0 = word ptr 4 
arg 2 word ptr 6 


push bp 

mov bp, sp 

push si 

mov si, [bp+arg 0] 
mov bx, [bp-*arg 2] 
loc 12: ; CODE XREF: string compare-21j 
mov al, [bx] 

cmp al, [si] 

jz short loc_1C 
xor ax, ax 

jmp short loc 2B 


loc 1C: ; CODE XREF: string compare-Ej 
test al, al 

jz short loc 22 

jnz short loc 27 

loc 22: ; CODE XREF: string compare-16j 
mov ax, 1 

jmp short loc 2B 


loc 27: ; CODE XREF: string compare-18j 
inc bx 

inc si 

jmp short loc 12 


loc 2B: ; CODE XREF: string compare-12j 

; String compare-1Dj 

pop si 

pop bp 

retn 4 

string compare endp 

string compare far proc near ; CODE XREF: WinMain+18p 


arg O = word ptr 4 
arg 2 - word ptr 6 
arg 4 - word ptr 8 
arg 6 = word ptr OAh 
push bp 

mov bp, sp 

push si 


mov si, [bp-«arg 0] 

mov bx, [bp+arg_ 4] 

loc 3A: ; CODE XREF: string compare far-*35j 
mov es, [bp-arg 6] 

mov al, es:[bx] 

mov es, [bp-«arg 2] 

cmp al, es:[si] 

jz short loc 4C 

xor ax, ax 

jmp short loc 67 


, 


loc 4C: ; CODE XREF: string compare far-*16j 
mov es, [bptarg_ 6] 

cmp byte ptr es:[bx], 0 

jz short loc_5E 

mov es, [bp+arg_2] 

cmp byte ptr es:[si], 0 

jnz short loc 63 

loc BE: ; CODE XREF: string compare far-*23j 
mov ax, 1 

jmp short loc 67 


loc 63: ; CODE XREF: string compare far-*2Cj 
inc bx 

inc si 

jmp short loc_3A 


loc_67: ; CODE XREF: string_compare_far+1Aj 
; string_compare_far+31j 

pop si 

pop bp 

retn 8 

string_compare_far endp 

remove_digits proc near ; CODE XREF: WinMain+1Fp 
arg O = word ptr 4 

push bp 

mov bp, sp 

mov bx, [bp-arg 0] 

loc 72: ; CODE XREF: remove digits-*18j 
mov al, [bx] 

test al, al 

jz short loc 86 

cmp al, 30h es 

jb short loc_83 

cmp al, 39h ; '9' 

ja short loc 83 

mov byte ptr [bx], 2Dh ; '-"' 

loc 83: ; CODE XREF: remove digits-Ej 
; remove digits-*12j 

inc bx 

jmp short loc 72 


loc 86: ; CODE XREF: remove digits-*Aj 
pop bp 

retn 2 

remove digits endp 

WinMain proc near ; CODE XREF: Start+EDp 
push bp 

mov bp, sp 

mov ax, offset aAsd ; "asd" 


push ax 

mov ax, offset aDef ; "def" 

push ax 

call string compare 

push ds 

mov ax, offset aAsd ; "asd" 

push ax 

push ds 

mov ax, offset aDef ; "def" 

push ax 

call string compare far 

mov ax, offset aHelloi234World ; "hello 1234 world" 
push ax 

call remove digits 

XOr ax, ax 

push ax 

push ds 

mov ax, offset aHelloi234World ; "hello 1234 world" 
push ax 

push ds 

mov ax, offset aCaption ; "caption" 
push ax 

mov ax, 3 ; MB YESNOCANCEL 

push ax 

call MESSAGEBOX 

xor ax, ax 

pop bp 

retn OAh 

WinMain endp 


RATAA Bl PT AR A “near” 48 4 4 “far’4a Ht : 另 一 个 奇怪 的 16 位 8086 现 象 。 可 以 在 
70 章 继续 读 到 相关 内 容 。 近 指针 就 是 那些 指向 当前 数据 段 内 的 指针 。 因 为 ， 
string_compare() 函 数 仅 仅 用 到 2 个 16 位 指针 ， 而 且 访 问 数 据 通过 DS 指 向 了 它 

(mov al, es:[bx]) 。 远 指针 也 同样 在 我 的 16 位 MessageBox() 例 子 里 面 : 见 30.2 
节 。 因此， 在 访问 文本 时 ，Windows 内 核 并 不 关心 使 用 那个 数据 段 ， 所 以 它 需 要 更 
完整 的 信息 。 使 用 这 种 区 别 的 原因 可 能 是 因为 紧凑 的 程序 可 能 使 用 仅仅 一 个 64kb 
的 数据 段 。 所 以 他 并 不 需要 传递 地 址 的 高 位 数据 ， 因 为 它们 永远 是 不 变 的 。 大 一 点 
的 程序 可 能 会 使 用 多 个 64kb 数 据 段 ， 所 以 它们 每 次 操作 都 需要 需要 区 分 它们 是 在 哪 
个 数据 段 里 面 。 对 代码 段 来 说 也 是 相同 的 故事 ， 比 较 短 小 的 程序 可 能 在 64Kk 的 数据 
段 里 面包 含有 所 有 的 可 执行 代码 ， 然 后 所 有 的 函数 都 会 由 CALL NEAR 来 调用 ， 代 
码 使 用 RETN 返 回 。 人 但是， 如果 有 多 个 代码 段 的 话 ， 函 数 地 址 就 会 按 对 区 分 ， 然 后 
使 用 CALL FAR 来 调用 ， 代 码 会 使 用 RETF 返 回 。 这 就 是 在 编译 器 中 指定 “内 存 模 
型 "会 发 生 的 事情 。MS-DOS 和 Win16 编 译 器 针对 每 个 内 存 模 型 都 有 有 特别 的 库 : 
它们 会 因为 数据 和 代码 的 不 同 的 指针 模型 而 不 同 。 


53.6 例子 #6 


include <windows.h> 
#include <time.h> 
#include <stdio.h> 
char strbuf[256]; 


int PASCAL WinMain(HINSTANCE hInstance, HINSTANCE hPrevInstance, 
LPSTR lpCmdLine, int nCmdShow) 
{ 
struct tm *t; 
time_t unix_time; 
unix_time=time(NULL); 
t=localtime (&unix_time); 
sprintf (strbuf, "%04d-%02d-%02d %02d:%02d:%02d", t->tm_year 
+1900, t->tm_mon, t->tm_mday, 
t->tm_hour, t->tm_min, t->tm_sec); 
MessageBox (NULL, strbuf, "caption", MB_OK); 
return 0; 
J; 


WinMain proc near 

var 4 - word ptr -4 

var 2 - word ptr -2 

push bp 

mov bp, sp 

push ax 

push ax 

xor ax, ax 

call time 

mov [bp-var 4], ax ; low part of UNIX time 
mov [bp+var 2], dx ; high part of UNIX time 
lea ax, [bp-*var 4] ; take a pointer of high part 
call localtime 

mov bx, ax ; t 

push word ptr [bx] ; second 

push word ptr [bx+2] ; minute 

push word ptr [bx+4] ; hour 

push word ptr [bx+6] ; day 

push word ptr [bx+8] ; month 

mov ax, [bx+0Ah] ; year 

add ax, 1900 

push ax 

mov ax, offset a04d02d02d02d02 ; "%04d-%02d-%02d %02d:%02d:%02d" 
push ax 

mov ax, offset strbuf 

push ax 

call sprintf_ 

add sp, 10h 

xor ax, ax ; NULL 

push ax 

push ds 

mov ax, offset strbuf 

push ax 

push ds 

mov ax, offset aCaption ; "caption" 
push ax 

xor ax, ax ; MB_OK 

push ax 

call MESSAGEBOX 

xor ax, ax 

mov sp, bp 

pop bp 

retn OAh 

WinMain endp 


UNIX 时 间 是 32 位 的 ， 所 以 它 返 回 在 DX:AX 寄 存 器 对 中 ， 而 且 将 他 们 存储 到 两 个 本 
地 16 位 变量 中 。 然 后 一 个 指向 值 对 的 指针 会 被 当 作 参 数 传 给 localtime() 函 数 。 
Localtime() 434A — ^*struct tm ， 它 将 通过 C 库 分 配 内 存 ， 所 以 只 有 指向 它 的 指针 
返回 了 。 顺 便 一 提 ， 这 也 意味 着 在 它 的 结果 被 使 用 之 前 ， 了 有 函数 不 能 被 再 次 调用 。 对 
time() 和 |ocaltime() 两 个 函数 来 说 ，Watcom 调 用 转换 将 会 在 这 里 : 前 四 个 参数 使 用 


AX、DX、BX、CX 传 递 ， 剩 余 的 通过 栈 来 传递 。 使 用 这 个 转换 的 函数 也 会 在 名 字 
最 后 使 用 下 划 线 来 标记 。 Sprintf() 并 不 使 用 PASCAL 调 用 转换 ， 也 不 会 使 用 watcom 
转换 ， 所 以 参数 将 使 用 寻常 的 cdecl 方 式 传递 (47.17) © 


53.6.1 全 局 变量 
这 里 用 同样 的 例子 ， 但 是 变量 是 全 局 变量 : 


include <windows.h> 
#include <time.h> 
#include <stdio.h> 
char strbuf[256]; 
struct tm *t; 

time_t unix_time; 


int PASCAL WinMain(HINSTANCE hInstance, HINSTANCE hPrevInstance, 
LPSTR lpCmdLine, int nCmdShow) 

t 

unix time-time(NULL); 

t-localtime (&unix time); 

sprintf (strbuf, "9604d-9602d-9602d %02d:%02d:%02d", t->tm year 
+1900, t-»-tm mon, t->tm_mday, 

t-»tm hour, t-»tm min, t-»tm sec); 

MessageBox (NULL, strbuf, "caption", MB OK); 

return 0; 


Fi 


unix time low dw 0 
unix time high dw 0 

t dw 0 

WinMain proc near 

push bp 

mov bp, sp 

XOr ax, ax 

call time 

mov unix time low, ax 
mov unix time high, dx 
mov ax, offset unix time low 
call localtime 

mov bx, ax 


mov t, ax ; will not be used in future... 


push word ptr [bx] ; seconds 
push word ptr [bx+2] ; minutes 
push word ptr [bx+4] ; hour 
push word ptr [bx+6] ; day 
push word ptr [bx+8] ; month 
mov ax, [bx-«0Ah] ; year 

add ax, 1900 

push ax 


mov ax, offset a04d02d02d02d02 ; "%04d-%02d-%O2d %02d:%02d:%O2d" 


push ax 

mov ax, offset strbuf 
push ax 

call sprintf 

add sp, 10h 

xor ax, ax ; NULL 
push ax 

push ds 

mov ax, offset strbuf 
push ax 

push ds 

mov ax, offset aCaption ; "caption" 
push ax 

xor ax, ax ; MB_OK 
push ax 

call MESSAGEBOX 

xor ax, ax , return 0 
pop bp 

retn OAh 

WinMain endp 


T 不 会 被 使 用 ， 但 是 编译 器 还 是 用 代码 存储 了 这 个 值 。 因 为 他 并 不 确定 ， 也 许 这 个 


值 会 在 某 个 地 方 被 用 到 。 


Part IV JAVA 


第 五 十 四 章 
JAVA 


54.1 介 绍 
大 家 都 知道 ，java 有 很 多 的 反 编译 器 (或 是 产生 JVM 字 节 码 ) 原因 是 JVM 字 节 码 比 
其 他 的 X86 低 级 代码 更 容易 进行 反 编 译 。 


e 多 很 多 相关 数据 类 型 的 信息 。 
e JVM (java 庶 拟 机 ) 内 存 模型 更 严格 和 概括 。 
e java 编译 器 没有 做 任何 的 优化 工作 (JVM JIT 不 是 实时 ) ， 所 以 ， 类 文件 中 的 
字 节 代码 的 通常 更 清晰 多 读 。 
JVM 字 节 码 知识 什么 时 候 有 用 呢 ? 
文件 的 快速 粗糙 的 打 补 丁 任务 ， 类 文件 不 需要 重新 编译 反 编 译 的 结果 。 
分 析 混 淆 代码 
创建 你 自己 的 混淆 器 。 
创建 编译 器 代码 生成 器 (后 端 ) 目标 。 
我 们 从 一 段 简短 的 代码 开始 ， 除 非特 殊 声 明 ， 我 们 用 的 都 是 JDK1.7 
反 编译 类 文件 使 用 的 命令 ， 随 处 可 见 : javap -c -verbase. 
在 这 本 书 中 提供 的 很 多 的 例子 ， 都 用 到 了 这 个 。 


54.2 返回 一 个 值 


可 能 最 简单 的 java 有 函数 就 是 返回 一 些 值 ，oh， 并 且 我 们 必须 注意 ， 一 边 情 况 下 ， 在 
java 中 没有 孤立 存在 的 函数 ， 他 们 是 “方法 "(method)， 每 个 方法 都 是 被 关联 到 某 些 
类 ， 所 以 方法 不 会 被 定义 在 类 外 面 ， 但 是 我 还 是 叫 他 们 "有 也 数 " (function), 我 这 人 么 

用 “。 


public class ret 
public static int main(String[] args) 


( 


return 0; 


编译 它 。 


javac ret.java 


。。。 使 用 Java 标 准 工 具 反 编译 。 


javap -c -verbose ret.class 
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public static int main(java.lang.String[]); 
flags: ACC_PUBLIC, ACC_STATIC 

Code: 

stack=1, locals=1, args_size=1 

0: iconst O 

1: ireturn 


^ Tjava7t RAB iR P 0 是 使 用 频 蛙 最 高 的 常量 。 因 为 区 分 短 一 个 短 字 节 的 
iconst 0 指令 入 栈 0，iconst 1 指令 〈 入 栈 ) ，iconst 2 等 等 ， 直 到 iconst5。 也 可 以 
有 iconst_m1, 推送 -1 。 

就 像 在 MIPS 中 ， 分 离 一 个 寄存 器 给 0 常数 : 3.5.2 在 第 三 页 

栈 在 JVM 中 用 于 在 函数 调用 时 ， 传 参 和 传 返 回 值 。 因 此 ，iconst 0 是 将 0 入 栈 ， 
ireturn 指 令 ， (i 就 是 integer 的 意思 。) 是 从 栈 顶 返回 整数 值 。 

[校准 到 这 ,未 完 待 续 ...] 


让 我 们 写 一 个 简单 的 例子 ， 现 在 我 们 返回 1234 : 


public class ret 


( 


public static int main(String[] args) 


return 1234; 


} 
} 


我 们 得 到 : 


清单 : 54.2:jdk1.7( 节 选 ) public static int main(java.lang.String[]); flags: 
ACC PUBLIC, ACC _ STATIC Code: stack=1, locals=1, args size-1 0: sipush 
1234 3: ireturn 


sipush(shot integenm) 如 栈 值 是 1234,slot 的 名 字 以 为 着 一 个 16bytes 值 将 会 入 栈 。 
sipush( 短 整 型 ) 1234 数 值 确认 时 候 16-bit 值 。 


public class ret 
public static int main(String[] args) 


return 12345678; 


} 
} 


更 大 的 值 是 什么 ? 
清单 54.3 常量 区 


#2 = Integer 12345678 


545, TR 


public static int main(java.lang.String[]); 
flags: ACC PUBLIC, ACC STATI 

Code: 

stack-1, locals=1, args size-1 

0: ldc #2 // int 12345678 

2: ireturn 


操作 码 JVM 的 指令 码 操作 码 不 可 能 编码 成 32 位 数 ， 开 发 者 放弃 这 种 可 能 。 因 此 ， 
32 位 数字 12345678 是 被 存储 在 一 个 叫做 第 量 区 的 地 方 。 让 我 们 说 (大 多 数 被 使 用 
的 常数 【包括 字符 ， 对 象 等 等 车 ) ) 对 我 们 而 言 。 


对 JVM 来 说 传递 常量 不 是 唯一 的 ，MIPS ARM 和 其 他 的 RISC CPUS 也 不 可 能 把 32 
位 操作 编码 成 32 位 数字 ， 因 此 RISC CPU (包括 MIPS 和 ARM) 去 构造 一 个 值 需要 
一 系列 的 步骤 ， 或 是 他 们 保存 在 数据 段 中 : 28。3 在 654 页 .291 #6957 ° 


MIPS 码 也 有 一 个 传统 的 常量 区 ，literal pool( 原 语 区 ) 这 个 段 被 叫做 "lit4"( 对 于 32 位 单 
精度 浮 点 数 常数 存储 ) 和 Iit8(64 位 双 精 度 浮 点 整数 常量 区 ) 


public class ret 

{ 

public static boolean main(String[] args) 
{ 

return true; 

} 

} 


public static boolean main(java.lang.String[]); 
flags: ACC PUBLIC, ACC STATIC 

Code: 

stack-1, locals-1, args size-1 

©: iconst_1 


这 个 JVM 字 节 码 是 不 同 于 返回 的 整数 学 ，32 位 数据 ， 在 形 参 中 被 当成 逻辑 值 使 用 。 
像 C/C++， 但 是 不 能 像 使 用 整 型 或 是 viceversa 返 回 布尔 型 ， 类 型 信息 被 存储 在 类 文 
件 中 ， 在 运行 时 检查 。 


16 位 短 整 型 也 是 一 样 。 


public class ret 


{ 


public static short main(String[] args) 


{ 
return 1234; 
} 
} 


public static short main(java.lang.String[]); 
flags: ACC_PUBLIC, ACC_STATIC 

Code: 

stack=1, locals=1, args_size=1 

0: sipush 1234 

3: ireturn 


public class ret 


public static char main(String[] args) 
{ 
return 'A'; 


} 


public static char main(java.lang.String[]); 
flags: ACC_PUBLIC, ACC_STATIC 

Code: 

stack=1, locals=1, args_size=1 

0: bipush 65 

2: ireturn 


bipush 的 意思 "push byte" 字 节 入 栈 ， 不 必 说 java 的 char 是 16 位 UTF16 字 符 ， 和 
short 短 整 型 相等 ， 单 ASCII 码 的 A 字 符 是 65， 它 可 能 使 用 指令 传输 字 节 到 栈 。 


让 我 们 是 试 一 下 byte 。 


public class retc 


{ 
public static byte main(String[] args) 


return 123; 


j 


} 
public static byte main(java.lang.String[]); 


flags: ACC PUBLIC, ACC STATIC 


Code: 

stack-1, locals=1, args size-1 
0: bipush 123 

2: ireturn 


也 许 会 问 ， 位 什么 费事 用 两 个 16 位 整 型 当 32 位 用 ?为 什么 char 数 据 类 型 和 短 整 型 类 
型 还 使 用 char. 

答案 很 简单 ， 为 了 数据 类 型 的 控制 和 代码 的 可 读 性 。char 也 许 本 质 上 short 相 同 ， 但 
是 我 们 快速 的 掌握 它 的 占 位 符 ，16 位 的 UTF 字 符 ， 并 且 不 像 其 他 的 integer 值 符 。 使 
用 short, 为 各 位 展现 一 下 变量 的 范围 被 限制 在 16 位 。 在 需要 的 地 方 使 用 poolean 型 
也 是 一 个 很 好 的 主意 。 代 替 C 样 式 的 int 也 是 为 了 相同 的 目的 。 


在 java 中 integer 的 64 位 数据 类 型 。 


public class ret3 


i 


public static long main(String[] args) 


return 1234567890123456789L; 


} 
} 


清单 54.4 常 量 区 


#2 = Long 12345678901234567891 


public static long main(java.lang.String[]); 
flags: ACC PUBLIC, ACC STATIC 

Code: 

stack-2, locals=1, args size-1 

0: ldc2 w #2 // long ^7 

C 12345678901234567891 

3: lreturn 


64 位 数 也 被 在 存储 在 常量 区 ，ldc2_w 加 载 它 ，|lreturn 返 回 它 。 ldc2_w 指 令 也 是 从 
内 存 常 量 区 中 加 载 双 精 度 浮 点 数 。 (同样 占 64 位 ) 


public class ret 

{ 

public static double main(String[] args) 
{ 

return 123.456d; 


} 
} 


清单 54.5 常 量 区 


#2 = Double 123.456d 


public static double main(java.lang.String[]); 
flags: ACC PUBLIC, ACC STATIC 

Code: 

stack-2, locals=1, args size-1 

0: ldc2 w #2 // double 123.4567 

C d 

3: dreturn 


dreturn 代表 "return double" 


最 后 ， 单 精度 浮 点 数 : 


public class ret 


t 
public static float main(String[] args) 


{ 
return 123.456f; 


} 
} 


清单 54.6 常量 区 


#2 = Float 123.456f 


public static float main(java.lang.String[]); 
flags: ACC PUBLIC, ACC STATIC 

Code: 

stack-1, locals=1, args size-1 

0: ldc #2 // float 123.456f 

2: freturn 


此 处 的 ldc 指 令 使 用 和 32 位 整 型 数据 一 样 ， 从 常量 区 中 加 载 。freturn 的 意思 
是 "return float" 


那么 还 能 返回 什么 呢 ? 


public class ret 

{ 

public static void main(String[] args) 
{ 

return; 

} 

} 

public static void main(java.lang.String[]); 
flags: ACC_PUBLIC, ACC_STATIC 

Code: 

stack=0, locals=1, args_size=1 

0: return 


21 > 使 用 return 控 制 指令 确 没 有 返回 实际 的 值 ， 这 一 点 就 非常 容易 的 从 
条 指令 中 演绎 出 函数 (或 是 方法 ) 的 返 dito 


4N 
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让 我 们 继续 看 简单 的 计算 函数 


public class calc 


1 
public static int half(int a) 


i 


return a/2; 


} 
} 


这 种 情况 使 用 icont 2 会 被 使 用 。 


public static int half(int); 
flags: ACC PUBLIC, ACC STATIC 


Code: 

stack-2, locals-1, args size-1 
0: iload 0 

1: iconst 2 

2: idiv 

3: ireturn 


iload 0 将 零 给 函数 做 参数 ， 然 后 将 其 入 栈 。iconst_ 2 将 2 入 栈 ， 这 两 个 指令 执行 
后 ， 栈 看 上 去 是 这 个 样子 的 。 


十 - - -十 
TOS ->| 2 | 
十 - - -十 
| a | 
+---+ 


idiv 携 带 两 个 值 在 栈 顶 ，divides 只 有 一 个 值 ， 返 回 结果 在 栈 顶 。 


eS Sass + 
TOS ->| result | 
HSS oases + 


ireturn 取 得 比 返回 。 让 我 们 处 理 双 精 度 浮 点 整数 。 


public class calc 


{ 
public static double half_double(double a) 


£ 


return a/2.0; 


} 
} 


清单 54.7 常量 区 


#2 = Double 2.0d 


public static double half double(double); 
flags: ACC PUBLIC, ACC STATIC 


Code: 

stack-4, locals-2, args size-1 
0: dload O 

1: ldc2 w #2 // double 2.0d 

4: ddiv 


5: dreturn 


类 似 ， 只 是 ldc2_w 指 令 是 从 常量 区 装载 2.0， 另 外 ， 所 有 其 他 三 条 指令 有 d 前 级， 意 
思 是 他 们 工作 在 double 数 据 类 型 下 。 


我 们 现在 使 用 两 个 参数 的 函数 。 


public class calc 


public static int sum(int a, int b) 


( 


return a+b; 


j 


public static int sum(int, int); 
flags: ACC PUBLIC, ACC STATIC 
Code: 

stack-2, locals-2, args size-2 
0: iload 0 

1: iload 1 
2: iadd 

3: ireturn 


iload_0 加 载 第 一 个 函数 参数 (a) ， iload 2 第 二 个 参数 (b) 下 面 两 条 指令 执行 后 ， 栈 
的 情况 如 下 : 


十 -- -十 
TOS ->| b | 
+---+ 
| a | 
+---+ 


iadds 增加 两 个 值 ， 返 回 结 果 在 栈 顶 。 +-------- + TOS ->| result | +-------- 十 
让 我 们 把 这 个 例子 扩展 成 长 整 型 数据 类 型 。 


public static long lsum(long a, long b) 
{ 


return atb; 


} 


我 们 得 到 的 是 : 


public static long lsum(long, long); 
flags: ACC PUBLIC, ACC STATIC 

Code: 

stack-4, locals-4, args size-2 

0: lload O 

1: lload 2 

2: ladd 

3: lreturn 


第 二 个 〈load 指 令 从 第 二 参数 楷 中 ， 取 得 第 二 参数 。 这 是 因为 64 位 长 整 型 的 值 占用 
来 位 ， 用 了 另外 的 话 2 位 参数 构 。) 


稍微 复杂 的 例子 


public class calc 

{ 

public static int mult add(int a, int b, int c) 
b 

return a*b+c; 

} 

} 

public static int mult add(int, int, int); 
flags: ACC PUBLIC, ACC STATIC 

Code: 

stack-2, locals-3, args size-3 

iload 0 

iload 1 

imul 

iload 2 

iadd 

ireturn 


ahWNER © 


第 一 是 相 乘 ， 积 被 存储 在 栈 顶 。 


oe coe aoe + 
TOS ->| product | 
Joys ere 十 


iload 2 加 载 第 三 个 参数 (C) AR ° 


现在 iadd 指 令 可 以 相 加 两 个 值 。 


54.4 JVM À FIA 


X86 和 其 他 低级 环境 系统 使 用 栈 传递 参数 和 存储 本 地 变量 ，JVM 稍 微 有 些 不 同 。 


主要 体现 在 : 本 地 变量 数组 (LVA) 被 用 于 存储 到 | 来 函数 的 参数 和 本 地 变量 o 
iload 0 指令 是 从 其 中 加 载 值 ， m o T d" Log AX SG : 开始 从 0 
或 者 1( 如 果 3. 04-ikthisd 针 用 。)， 那 么 本 地 局 部 变量 被 分 配 。 


每 个 模子 的 大 小 都 是 32 位 ， 因 此 long 和 double 数 据 类 型 都 占 两 个 楷 。 


操作 数 栈 (或 只 是 " 栈 ") ， 被 用 于 在 其 他 元 数 调用 时 ， 计 算 和 传递 参数 。 不 像 低 级 
X86 的 环境 ， 它 不 能 去 访问 栈 ， 而 又 不 明确 的 使 用 pushes 和 pops 指 令 ， 进 行 出 入 栈 
操作 。 


54.5 简单 的 函数 调用 


mathrandom() 返 回 一 个 伪 随 机 数 ， 函 数 范围 在 【0.0...1.0) 之 间 ， 但 对 我 们 来 说 ， 由 
于 一 些 原 因 ， 我 们 常常 需要 设计 一 个 函数 返回 数值 范围 在 「0.0...0.5) 


public class HalfRandom 


i 
public static double f() 


( 


return Math.random()/2; 


#2 = Methodref #18.#19 // java/lang/Math.^ 
Ç random: ()D 

6(Java) Local Variable Array 

#3 = Double 2.0d 


#12 


= Utf8 ()D 
#18 = Class #22 // java/lang/Math 
#19 = NameAndType #23:#12 // random: ()D 
422 - Utf8 java/lang/Math 
#23 = Utf8 random 


public static double f(); 

flags: ACC PUBLIC, ACC STATIC 

Code: 

stack-4, locals-0, args size-0 

0: invokestatic #2 // Method java/^ 
Ç lang/Math.random: ()D 

3: ldc2 w #3 // double 2.0d 

6: ddiv 

71: dreturn 


java 本 地 变量 数组 9016 3$ SHATA A math.random() £& X». REVERT o AE RE 
被 0.5 初 返回 的 ， 但 函数 名 是 怎么 被 编码 的 呢 ? 在 常量 区 使 用 methodres 表 达 式 , 进 
行 编码 的 ， 它 定义 类 和 方法 的 名 称 。 第 一 个 methodref 字段 指向 表达 式 ， 其 次 ， 指 
向 通常 文本 字符 ("javallang/math") 第 二 个 methodref 表 达 指 向 名 字 和 类 型 表达 
式 ， 同 时 链接 两 个 字符 。 第 一 个 方法 的 名 字 式 字符 串 "random", 第 二 个 字符 串 是 " 
()D", 来 编码 函数 类 型 ， 它 以 为 这 两 个 值 (因此 D 是 字符 串 ) 这 种 方式 1JVM 可 以 检查 
数据 类 型 的 正确 性 : 2) java 反 编译 器 可 以 从 被 编译 的 类 文件 中 修改 数据 类 型 。 


最 后 ， 我 们 试 着 使 用 "hello，world ! "作为 例子 。 


public class Helloworld 


public static void main(String[] args) 


{ 
System.out.println("Hello, World"); 


} 
} 


54.9 常量 区 


常量 区 的 ldc 行 偏 移 3， 指 向 "hello，world ! "字符 串 ， 并 且 将 其 入 栈 ， 在 java 里 它 被 
成 为 饮用 ， 其 实 它 就 是 指针 ， 或 是 地 址 。 


#2 = Fieldref #16.#17 // java/lang/System. v 
C out:Ljava/io/PrintStream; 

#3 = String #18 // Hello, World 

#4 = Methodref #19.#20 // java/io/v 

Ç PrintStream.println:(Ljava/lang/String;)V 


#16 = Class #23 // java/lang/System 

#17 = NameAndType #24:#25 // out:Ljava/io/^7 

C PrintStream; 

#18 = Utf8 Hello, World 

#19 = Class #26 // java/io/v 

C PrintStream 

#20 = NameAndType #27:#28 // println:(Ljava/^ 
C lang/String;)V 


#23 


= Utf8 java/lang/System 
#24 = Utf8 out 
#25 = Utf8 Ljava/io/PrintStream; 
#26 = Utf8 java/io/PrintStream 
#27 = Utf8 println 
#28 = Utf8 (Ljava/lang/String; )V 


public static void main(java.lang.String[]); 
flags: ACC_PUBLIC, ACC_STATIC 

Code: 

stack=2, locals=1, args_size=1 

0: getstatic #2 // Field java/^ 

C lang/System.out:Ljava/io/PrintStream; 

3: ldc #3 // String Hello, 2 

C World 

5: invokevirtual #4 // Method java/io^ 

Ç /PrintStream.println:(Ljava/lang/String;)V 
8: return 


AD LAU TUE 量 区 取信 息 ， 然 后 调用 pringIln() 方 法 ， 貌 似 我 们 知道 
bun pus 类 型 ， 我 这 种 println() 函 数 版 本 ， 预 先 给 的 是 字符 
BRA 。 


但 是 第 一 个 getstatic 指 令 是 干什么 的 ? 这 条 指令 取得 对 象 信息 的 字段 的 一 个 引用 或 
是 地 址 。 输 出 并 将 其 eee lp d UE 内 部 的 print 
method 取 得 两 个 参数 ， 输 入 1 指向 对 象 的 this 指 针 ，2) "hello，world" 字 符 串 的 地 
址 ， 确 实 ， MU a 系统 的 调用 ， 对 象 之 外 ， 为 了 方便 ，javap 使 用 工具 
把 所 有 的 信息 都 写 入 到 注释 中 。 


54.6 73] beep() & x 


这 可 能 是 最 简单 的 ， 不 使 用 参数 的 调用 两 个 函数 。 


public static void main(String[] args) 

Y 
java.awt.Toolkit.getDefaultToolkit().beep(); 
}; 

public static void main(java.lang.String[]); 
flags: ACC_PUBLIC, ACC_STATIC 

Code: 

stack=1, locals=1, args_size=1 

0: invokestatic #2 // Method java/^ 

C awt/Toolkit.getDefaultToolkit:()Ljava/awt/Toolkit; 
3: invokevirtual #3 // Method java/v 

C awt/Toolkit.beep:()V 

6: return 


首先 ，invokestatic 在 0 行 偏 移 调 用 javaawt.toolkit. getDefaultTookKit() $ 4, 2& v] 
toolkit 类 对 象 的 引用 ，invokedvirtuallFge 指 令 在 3 行 偏 移 ， 调 用 这 个 类 的 beep () 
方法 。 


54.7 线性 同 余 伪 随 机 数 生 成 器 


我 们 来 试 一 个 简单 的 伪 随 机 函数 生成 器 ， 我 已 经 在 这 本 书 中 用 过 一 次 了 。 (#500 
页 20 行 ) 


public class LCG 

{ 

public static int rand state; 
public void my srand (int init) 

{ 

rand_state=init; 

} 

public static int RNG_a=1664525; 
public static int RNG_c=1013904223; 


public int my_rand () 

{ 
rand_state=rand_state*RNG_a; 
rand_state=rand_state+RNG_C; 
return rand state & Ox7fff; 
} 

} 


一 对 类 的 字段 ， 在 最 开始 时 被 初始 化 。 但 是 怎么 能 ， 在 javap 的 输出 中 ， 发 现 类 的 构 
造 呢 ? 


static {}; 

flags: ACC_STATIC 

Code: 

stack=1, locals=0, args_size=0 
0: ldc #5 // int 1664525 

2: putstatic #3 // Field RNG_a:I 
5: ldc #6 // int 1013904223 

7: putstatic #4 // Field RNG c:I 
10: return 


2 变量 的 初始 化 ， A 134 3E > IiRNG. CA^ > ropuststaticta + 
， 用 于 设 定常 量 


my_srand() 函 数 ， 只 是 将 输入 值 ， 存 储 到 rand state; 


public void my srand(int); 
flags: ACC PUBLIC 

Code: 

stack-1, locals-2, args size-2 
0: iload 1 

1: putstatic #2 // Field ^ 

C rand state:I 

4: return 


iload 1 取得 输入 值 并 将 其 入 栈 。 但 为 什么 不 用 iload 0? 因 为 这 个 函数 可 能 使 用 类 的 
字段 属性 ， 因 此 这 个 变 量 被 作为 参数 0 传递 给 了 函数 ，rand state 字 段 属 性 ， 在 类 中 
占用 2 个 参数 模子 。 


现在 my_rand(): 


public int my rand(); 

flags: ACC PUBLIC 

Code: 

stack-2, locals-1, args size-1 
0: getstatic #2 // Field ^ 
rand state:I 

getstatic #3 // Field RNG a:I 
imul 

putstatic #2 // Field ^ 

C rand state:I 

10: getstatic 42 // Field 2 

C rand state:I 

13: getstatic #4 // Field RNG c:I 
16: iadd 

17: putstatic 42 // Field 2 

C rand state:I 

20: getstatic 42 // Field 2 

C rand state:I 

23: sipush 32767 

26: iand 

27: ireturn 


NOUO 


它 仅 是 加 载 了 所 有 对 象 字段 的 值 。 在 20 行 偏 移 ， 操 作 和 更 新 rand_state， 使 用 
putstatic 指 令 。 


rand state 值 被 再 次 重 载 (因为 之 前 ， 使 用 过 putstatic 指 令 ， 其 被 从 栈 中 弃 出 ) 这 
种 代码 其 实 比较 低 效率 ， 但 是 可 以 肯定 的 是 ，JVM 会 经 常 的 ， 对 其 进行 很 好 的 优 
化 。 


54.8 条 件 跳 转 


让 我 们 进入 条 件 跳 转 


public class abs 


( 


public static int abs(int a) 


if (a«0) 
return -a; 
return a; 
} 

} 


public static int abs(int); 
flags: ACC_PUBLIC, ACC_STATIC 
Code: 

stack=1, locals=1, args_size=1 
: iload 0 

ifge 7 

iload 0 

ineg 

ireturn 

iload 0 

ireturn 


ONOUBRR © 


ifge 跳 转 到 7 行 偏 移 ， 如 果 栈 顶 的 值 大 于 等 于 0， 别 忘 了 ， 任 何 IFXX 指 令 从 栈 中 pop 
出 栈 值 (用 于 进行 比较 ) 


另外 一 个 例子 


public static int min (int a, int b) 
{ 

if (a>b) 

return b; 

return a; 


} 


我 们 得 到 的 是 : 


public static int min(int, int); 
flags: ACC PUBLIC, ACC STATIC 
Code: 

pipes 2, locals-2, args size-2 
iload. 0 

iload 1 

if icmple 7 

iload 1 

ireturn 

iload 0 

ireturn 


oua o LN alee 


if_icmple 出 栈 两 个 值 并 比较 他 们 ， 如 果 第 三 个 子 值 比 第 一 个 值 小 (或 者 等 于 ) RA 
跳 转 到 行 偏 移 7. 


35 RAIE 3 max() BA © 


public static int max (int a, int b) 


{ 

if (a>b) 
return a; 
return b; 


} 


。。。 结 果 代 码 是 是 一 样 的 ， 但 是 最 后 两 个 iload 指 令 ( 行 偏 移 5 和 行 偏 移 7) 被 跳 转 
了 。 


public static int max(int, int); 
flags: ACC PUBLIC, ACC STATIC 
Code: 

stack-2, locals-2, args size-2 
iload_0 

iload 1 

if icmple 7 

iload_0 

ireturn 

iload 1 

ireturn 


CONDONE © 


更 复杂 的 例子 。。 


public class cond 


( 


public static void f(int i) 


if (i<100) 

System.out.print("<100"); 

if (i==100) 

System.out.print("--100"); 

if (i»100) 

System.out.print(">100"); 

if (i==0) 

System.out.print("==0"); 

} 

} 

public static void f(int); 

flags: ACC_PUBLIC, ACC_STATIC 

Code: 

stack=2, locals=1, args_size=1 

0: iload 0 

1: bipush 100 

3: if icmpge 14 

6: getstatic #2 // Field java/v 

C lang/System.out:Ljava/io/PrintStream; 
9: ldc #3 // String «100 

11: invokevirtual #4 // Method java/iov 
Ç /PrintStream.print:(Ljava/lang/String;)V 
14: iload 0 

15: bipush 100 

17: if icmpne 28 

20: getstatic #2 // Field java/v 

C lang/System.out:Ljava/io/PrintStream; 
23: ldc £5 // String --100 

25: invokevirtual #4 // Method java/iov 
Ç /PrintStream.print:(Ljava/lang/String;)V 
28: iload 0 

29: bipush 100 

31: if icmple 42 

34: getstatic #2 // Field java/v 

C lang/System.out:Ljava/io/PrintStream; 
37: ldc £6 // String >100 

39: invokevirtual #4 // Method java/iov 
Ç /PrintStream.print:(Ljava/lang/String;)V 
42: iload 0 

43: ifne 54 

46: getstatic #2 // Field java/v 

C lang/System.out:Ljava/io/PrintStream; 
49: ldc £7 // String -- 

51: invokevirtual #4 // Method java/iov 
Ç /PrintStream.print:(Ljava/lang/String;)V 
54: return 


if icmpge 出 栈 两 个 值 ， 并 且 比 较 它 们 ， 如 果 第 的 二 个 值 大 于 第 一 个 ， 发 生 跳 转 到 行 
偏 移 14，if icmpne 和 if icmple 做 的 工作 类 似 ， 但 是 使 用 不 同 的 判断 条 件 。 


在 行 偏 移 43 的 ifne 指 令 ， 它 的 名 字 不 是 很 恰当 ， 我 要 愿意 把 它 命名 为 ifnz 


如 果 栈 定 的 值 不 是 0 跳 转 ， 但 是 这 是 怎么 做 的 ， 总 跳 转 到 行 偏 移 54， 如 果 输 入 的 值 
不 是 另 ， 如 果 是 0， 执 行 流程 进入 行 偏 移 46 ，“==? 字 符 串 被 打印 。 


N.BJVM 没 有 无 符号 数据 类 型 ， 所 以 ， 比 较 指 令 的 操作 数 ， 只 有 还 有 符号 整数 值 。 


54.9 传递 参数 值 
我 们 来 扩展 一 下 min()/max() 这 个 例子 。 


public class minmax 
public static int min (int a, int b) 


{ 

if (a>b) 
return b; 
return a; 


public static int max (int a, int b) 


{ 

if (a>b) 
return a; 
return b; 


public static void main(String[] args) 


int a-123, b-456; 

int max valuezmax(a, b); 

int min value-min(a, b); 
System.out.println(min value); 
System.out.println(max value); 
} 

} 


i& X main() BA &* KAZ o 


public static void main(java.lang.String[]); 
flags: ACC PUBLIC, ACC STATIC 

Code: 

stack-2, locals-5, args size-1 

0: bipush 123 

istore 1 

sipush 456 

istore 2 

iload 1 

iload 2 

invokestatic #2 // Method max:(IIv 
c )I 

12: istore 3 

13: iload 1 

14: iload 2 

15: invokestatic #3 // Method min:(II^ 
e) 

18: istore 4 

20: getstatic #4 // Field java/v 

C lang/System.out:Ljava/io/PrintStream; 
23: iload 4 

25: invokevirtual #5 // Method java/iov 
Ç /PrintStream.println:(I)V 

28: getstatic £4 // Field java/v 

C lang/System.out:Ljava/io/PrintStream; 
31: iload 3 

32: invokevirtual #5 // Method java/iov 
Ç /PrintStream.println:(I)V 

35: return 


serios eate ds) 


参数 在 栈 中 的 被 传 给 其 他 函数 ， 返 回 值 在 栈 顶 。 


54.10 位 。 


所 有 位 操作 工作 ， 与 其 他 的 一 些 |SA (指令 集 架 构 ) RM: 


public 


static int set (int a, int b) 


{ 

return a | 1<<b; 

} 

public static int clear (int a, int b) 
{ 

return a & (-(1««b)); 

} 

public static int set(int, int); 
flags: ACC PUBLIC, ACC_ STATIC 
Code: 

stack=3, locals-2, args size-2 
0: iload 0 

1: iconst 1 

2: iload 1 

3: ishl 

4: ior 

5: ireturn 

public static int clear(int, int); 
flags: ACC PUBLIC, ACC STATIC 
Code: 

stack-3, locals-2, args size-2 
0: iload 0 

1: iconst 1 

2: iload 1 

3: ishl 

4: iconst_m1 

5: ixor 

6: iand 

7: ireturn 


iconst _m1 将 -1 入 栈 ， 这 数 其 实 就 是 16 进 制 的 0OxFFFFFFFF， 将 OxFFFFFFFF 作 为 
XOR-ing 指 令 执行 的 操作 数 。 起 到 的 效果 就 是 把 所 有 bits 位 反 向 ，(A.6.2 在 1406 


N 


页 ) 


我 将 所 有 数据 类 型 ， 扩 展 成 64 为 长 整 型 。 


public static long lset (long a, int b) 
{ 


return a | 1<<b; 


j 
public static long lclear (long a, int b) 


{ 

return a & (~(1<<b)); 

} 

public static long lset(long, int); 
flags: ACC PUBLIC, ACC STATIC 
Code: 

stack-4, locals-3, args size-2 
: lload 0 

iconst 1 

iload 2 

ishl 

i21 

lor 

: lreturn 

public static long lclear(long, int); 
flags: ACC PUBLIC, ACC STATIC 
Code: 

stack-4, locals-3, args size-2 
lload 0 

iconst 1 

iload 2 

ishl 

iconst mi 

ixor 

i21 

land 

lreturn 


OPPOONPO 


ONOUBRWBNE © 


代码 是 相同 的 ， 但 是 指令 前 面 使 用 了 前 缓 L， 操 作 64 位 值 ， 并 且 第 二 个 函数 参数 还 
是 int 类 型 ， 并 且 32 值 需要 升级 为 64 位 值 ， 值 被 i21 指 令 使 用 ， 本 质 上 就 是 把 整 型 ， 
扩展 成 64 位 长 整 型 . 


54.11 循 环 


public class Loop 
public static void main(String[] args) 


for (int i = 1; i <= 10; i++) 
{ 

System.out.println(i); 

} 

} 


public static void main(java.lang.String[]); 
flags: ACC PUBLIC, ACC STATIC 

Code: 

SU else 2, locals=2, args_size=1 

iconst alt 

istore 1 

iload 1 

bipush 10 

if_icmpgt 21 

getstatic #2 // Field java/^ 

Ç ‘1ang/System. out:Ljava/io/PrintStream; 
11: iload 1 

12: invokevirtual #3 // Method java/iov 
Ç /PrintStream.println:(I)V 

doc du noo 

18: goto 2 

21: return 


wwnNF wes 


icont 1 将 1 推 入 到 栈 顶 ，istore 1 将 其 存 入 到 LVA 的 参数 构 1， 为 什么 没有 零 楷 ? 
为 main() 辑 数 只 有 一 个 参数 ， 并 且 指 向 其 的 引用 ， 就 在 第 0 号 档 中 。 

因此 ，i 本 地 变量 总 是 在 1 号 参数 档 中 。 指令 在 行 3 偏 移 和 行 5 偏 移 ， 将 i 和 10 的 比 

较 。 pos ， 执行 流 进入 行 21 偏 移 ， 函 数 结束 了 ， 如 果 不 被 println 调 用 。i 在 行 11 偏 
移 进 行 了 重新 加 载 ， 之 后 给 println 使 用 。 


多 说 一 句 ， ng 印 数据 类 型 是 整 型 ， 我 们 看 注释 ，"，V”，i 的 意思 是 
整 型 ，Vv 的 意思 是 返回 void 。 


当 printin 函 数 结束 ，i 是 步 进 到 行 15 偏 移 ， 指 令 第 一 个 操作 数 是 参数 槽 1 的 值 。 第 二 
个 是 数值 1 与 本 地 变量 相 加 结果 。 


goto 指 令 就 是 跳 转 ， 它 跳 转 到 循环 体 的 开始 地 址 ， 再 行 偏 移 2. 
让 我 们 进行 更 复杂 的 例子 。 


public class Fibonacci 


1 

public static void main(String[] args) 
{ 

int limit = 20, f = 0, g - 1; 
for (int i = 1; i <= limit; i++) 
{ 

fg 

G T e oy 
System.out.println(f); 

} 

m 

} 


public static void main(java.lang.String[]); 
flags: ACC_PUBLIC, ACC_STATIC 

Code: 

stack=2, locals=5, args_size=1 

0: bipush 20 

2: istore 1 

3: iconst 0 

4: istore 2 

5: iconst_1 

6: istore 3 

7: iconst 1 

8: istore 4 

10: iload 4 

12: iload 1 

13: if_icmpgt 37 

16: iload 2 

17: iload 3 

18: iadd 

19: istore 2 

20: iload 2 

21: iload 3 

22: isub 

23: istore 3 

24: getstatic £2 // Field java/ 2 
C lang/System.out:Ljava/io/PrintStream; 
27: iload_2 

28: invokevirtual #3 // Method java/iov 
Ç /PrintStream.println:(I)V 
Steno i ud 

34: goto 10 

37: return 


LVA 槽 中 参数 映射 。 O-main () 的 唯一 参数 。 1-IR# > B20. 2-f 3-g 4-i 


我 们 可 以 看 到 java 编 译 器 在 LVA 参 数 槽 分 配 变量 ， 并 且 是 相同 的 顺序 ， 就 像 在 源 代 
码 中 声明 变量 。 


分 离 指 令 jistore， 是 用 于 访问 参数 楷 0123， 但 是 不 能 大 于 4， 因 此 ， 附 加 一 些 操作 > 
在 行 2，8 偏 移 ， 使 用 档 中 数据 作为 操作 数 ， 类 似 于 在 偏 移 10 位 置 的 iload 指 令 。 


无 可 口 非 ， 分 离 其 他 的 柳 ， 限 制 变量 总 是 20 (其 本 质 上 就 是 一 个 常数 ) ， 重 加 载 值 
很 经 常 吗 ? 


JVM JIT 编译 器 经 常 可 以 对 其 优化 的 很 好 。 在 代码 中 人 工 的 干预 优化 其 实 是 没有 什 
么 太 大 价值 的 。 


54.12 switch() x 


switch () 7 4) $5 ÈI E M tableswitch4s 4 > public static void f(int a) ( switch (a) { 
case 0: System.out.println("zero"); break; case 1: System.out.println("one\n"); 
break; case 2: System.out.println("two\n"); break; case 3: 
System.out.printin("three\n"); break; case 4: System.out.println("four n"); break; 
default: System.out.printIn("'something unknown 7 C n"); break; }; } 


尽 可 能 简单 的 例子 


public static void f(int); 
flags: ACC PUBLIC, ACC STATIC 
Code: 
stack-2, locals-1, args size-1 
0: iload O 

tableswitch ( // 0 to 4 


default: 91 


Ww 


36: getstatic #2 // Field java/v 

C lang/System.out:Ljava/io/PrintStream; 

39: ldc £3 // String zero 

41: invokevirtual #4 // Method java/iov 

Ç /PrintStream.println:(Ljava/lang/String;)V 
44: goto 99 

47: getstatic #2 // Field java/^ 

C lang/System.out:Ljava/io/PrintStream; 

50: ldc #5 // String one\n 

52: invokevirtual #4 // Method java/iov 

Ç /PrintStream.println:(Ljava/lang/String;)V 
55: goto 99 

58: getstatic #2 // Field java/v 

C lang/System.out:Ljava/io/PrintStream; 

61: ldc #6 // String two\n 

63: invokevirtual #4 // Method java/io^ 

Ç /PrintStream.println:(Ljava/lang/String;)V 
66: goto 99 


69: getstatic #2 // Field java/v 

C lang/System.out:Ljava/io/PrintStream; 

72: ldc #7 // String three\n 

74: invokevirtual #4 // Method java/iov 

C /PrintStream.println:(Ljava/lang/String;)V 
77: goto 99 

80: getstatic £2 // Field java/v 

C lang/System.out:Ljava/io/PrintStream; 

83: ldc #8 // String four\n 

85: invokevirtual #4 // Method java/iov 

Ç /PrintStream.println:(Ljava/lang/String;)V 
88: goto 99 

91: getstatic #2 // Field java/v 

C lang/System.out:Ljava/io/PrintStream; 

94: ldc #9 // String ^ 

Ç something unknown\n 

931 

CHAPTER 54. JAVA 54.13. ARRAYS 

96: invokevirtual #4 // Method java/iov 

Ç /PrintStream.println:(Ljava/lang/String;)V 
99: return 


54.134 28 


54.13.1 简 单 的 例子 


我 们 首先 创建 一 个 长 度 是 10 的 整 型 的 数组 ， 对 其 初始 化 。 


public static void main(String[] args) 


int a[]-new int[10]; 

for (int i-0; i«10; i++) 
a[i]-i; 

dump (a); 


public static void main(java.lang.String[]); 
flags: ACC PUBLIC, ACC STATIC 
Code: 

stack-3, locals-3, args size-1 
0: bipush 10 

2: newarray int 

4: astore 1 

5: iconst_0 

6: istore 2 

7: iload 2 

8: bipush 10 

10: if icmpge 23 

13: aload 1 

14: iload 2 

15: iload 2 

16: iastore 

du HC Zy dl 

20: goto 7 

23: aload 1 

24: invokestatic #4 // Method dump:([^ 
Ç I)V 

27: return 


newarray 指 令 ， 创 建 了 一 个 有 10 个 整数 元 素 的 数组 ， 数 组 的 大 小 设置 使 用 bipush 指 
令 ， 然 后 结果 会 返回 到 栈 顶 。 数 组 类 型 用 newarry 指 令 操作 符 ， 进 行 设 定 。 


newarray 被 执行 后 ， 引 用 (指针 ) 到 新 创建 的 数据 ， 栈 顶 的 模 中 ，astore_ 1 存储 引 
用 指向 到 LVA 的 一 号 李 ，main() 函 数 的 第 二 个 部 分 ， 是 循环 的 存储 值 1 到 相应 的 素 组 
元 素 。aload_1 得 到 数据 的 引用 并 放 入 到 栈 中 。lastore 将 integer 值 从 堆 中 存储 到 素 
组 中 ， 引 用 当前 的 栈 顶 。main() 函 数 代 用 dump() 的 函数 部 分 ， 参 数 是 ， 准 备 给 
aload 148455 (41481923) 


HL fe ATH Adump() à X e 


public static void dump(int a[]) 


for (int i-0; i«a.length; i++) 
System.out.println(a[i]); 


public static void dump(int[]); 

flags: ACC PUBLIC, ACC STATIC 

Code: 

pie 3, locals-2, args size-1 

iconst _0 

istore_1 

iload 1 

aload 0 

arraylength 

if icmpge 23 

getstatic #2 // Field java/^ 
-lang/System. out:Ljava/io/PrintStream; 
11: aload 0 

12: iload 1 

13: iaload 

14: invokevirtual #3 // Method java/iov 
Ç /PrintStream.println:(I)V 

7 NE La B 

20: goto 2 

23: return 


“DOO OO OECD 


到 了 引用 的 数组 在 0 槽 ，a.length 表 达 式 在 源 代码 中 是 转化 到 arraylength 指 令 ， 它 取 

得 数组 的 引用 ， 并 且 数 组 的 大 小 在 栈 顶 。iaload 在 行 偏 移 13 被 用 于 装载 数据 元 素 。 

它 需 要 在 堆栈 中 的 数组 引用 。 用 aload 0 11 并 且 索 引 Hee dd 
可 厚 非 ， 指 令 前 组 可 能 会 被 错误 的 理解 ， 就 像 数 组 指令 ， 那 样 不 正确 ， 指令 

path al 用 一 起 工作 的 。 数 组 和 字符 串 都 是 对 象 。 

54.13.2 数组 元 素 的 求 和 


另外 的 例子 


public class ArraySum 

1 

public static int f (int[] a) 
( 

int sum=0; 

for (int i-0; i<a.length; i++) 
sum=sumta[i]; 

return sum; 

} 

} 

public static int f(int[]); 
flags: ACC_PUBLIC, ACC_STATIC 
Code: 

stack=3, locals=3, args_size=1 
0: iconst O 


1: istore 1 

2: iconst O0 

3: istore 2 

4: iload 2 

5: aload 0 

6: arraylength 
7: if icmpge 22 
10: iload 1 
11: aload 0 
12: iload 2 
13: iaload 

14: iadd 


15: istore 1 
Loc sine. 2. al 
19: goto 4 
22: iload 1 
23: ireturn 


LVA 模 0 是 数组 的 引用 ，LVA 模 1 是 本 地 变量 和 。 


54.13.3 main ( ) 函数 唯一 的 数据 参数 
让 我 们 使 用 唯一 的 main() 有 函数 参数 ， 字 符 串 数组 。 


public class UseArgument 

{ 

public static void main(String[] args) 
{ 

System.out.print("Hi, "); 
System.out.print(args[1]); 
System.out.println(". How are you?"); 
} 

} 


0 参 (argument) 第 0 个 参数 是 程序 (和 C/C++ 类 似 ) 
因此 第 一 个 参数 ， 而 第 一 参数 是 拥护 提供 的 。 


public static void main(java.lang.String[]); 
flags: ACC PUBLIC, ACC STATIC 

Code: 

stack-3, locals=1, args size-1 

0: getstatic #2 // Field java/^ 
lang/System.out:Ljava/io/PrintStream; 
ldc £3 // String Hi, 

invokevirtual #4 // Method java/io^ 
/PrintStream.print:(Ljava/lang/String;)V 
getstatic #2 // Field java/^ 

C lang/System.out:Ljava/io/PrintStream; 
11: aload 0 

12: iconst_1 

13: aaload 

14: invokevirtual #4 // Method java/iov 

Ç /PrintStream.print:(Ljava/lang/String;)V 
17: getstatic #2 // Field java/v 

C lang/System.out:Ljava/io/PrintStream; 
20: ldc #5 77 String . How 2 

Ç are you? 

22: invokevirtual #6 // Method java/iov 

Ç /PrintStream.println:(Ljava/lang/String;)V 
25: return 


oo «C O1 CO «OO 


aload 0 在 11 行 加 载 ， 第 0 个 LVA 槽 的 引用 (main () 函数 唯一 的 参数 ) iconst_1 和 
aload 在 行 偏 移 12,13， 取 得 数组 第 一 个 元 素 的 引用 (从 0 计数 ) 字符 串 对 象 的 引用 
在 栈 顶 行 14 行 偏 移 ， 给 println 方 法 。 


54.1.34 初始 化 字符 串 数组 


class Month 


( 


public static String[] months - 
{ 

"January", 

"February", 

"March", 

"April", 

"May", 

"June", 

"July", 

"August", 

"September", 

"October", 

"November", 

"December" 

}; 

public String get month (int i) 
{ 

return months[i]; 

3 

} 


get_month() 函 数 很 简单 


public java.lang.String get month(int); 
flags: ACC PUBLIC 

Code: 

stack-2, locals-2, args size-2 

: getstatic #2 // Field months:[^ 
Ljava/lang/String; 

iload 1 

aaload 

: areturn 


O1 3» 00 © 


aaload 操 作 数组 引用 ，java 字 符 串 是 一 个 对 象 ， 所 以 a_instructiong 被 用 于 操作 他 
们 .areturn 返 回 字符 串 对 象 的 引用 。 


month [] Z& 4& 2& 4e JR 37 36 16 8) ? 


static {}; 
flags: ACC_STATIC 
Code: 


stack=4, locals=0, args_size=0 
0: bipush 12 

2: anewarray #3 // class java/ 2 
C lang/String 

5: dup 


6: iconst O 

7: ldc £4 // String January 
9: aastore 

10: dup 

11: iconst_1 

12: ldc #5 // String v 

Ç February 

14: aastore 

15: dup 

16: iconst_2 

17: ldc #6 // String March 
19: aastore 

20: dup 

21: Iconst_3 

22: ldc #7 // String April 
24: aastore 

25: dup 

26: iconst 4 

27: ldc £8 // String May 
29: aastore 

30: dup 

31: Iconst_5 

32: ldc #9 // String June 
34: aastore 

35: dup 

36: bipush 6 

38: ldc #10 // String July 
40: aastore 

41: dup 

42: bipush 7 

44: ldc #11 // String August 
46: aastore 

47: dup 

48: bipush 8 

50: ldc #12 // String ^ 

C September 

52: aastore 

53: dup 

54: bipush 9 

56: ldc #13 // String October 
58: aastore 

59: dup 

60: bipush 10 

62: ldc #14 // String ^ 

C November 

64: aastore 

65: dup 

66: bipush 11 

68: ldc #15 // String ^ 

C December 

70: aastore 

71: putstatic #2 // Field months:[^ 
C Ljava/lang/String; 


74: return 


21 uo cu c I 
操作 数 中 ， 它 在 这 是 java/lang/string" 文 本 字符 囊 ， > 在 这 之 前 的 bipush 1L 是 设置 数 
组 的 大 小 。 对 于 我 们 再 这 看 到 一 个 新 指令 dup， 他 是 一 个 众所周知 的 堆栈 操作 的 计 
算 机 指令 。 用 于 复制 栈 顶 的 值 。 ( 包括 了 之 后 的 编程 语言 ) 它 在 这 是 用 于 复制 数组 
的 引用 。 因 为 aastore 张 玲玲 起 到 弹出 堆栈 中 的 数组 的 作用 ， 但 是 之 后 ，aastore 需 
要 在 使 用 一 次 ，java 编 译 器 ， 最 好 同 dup 代 替 getstatic 指 令 ， 用 于 生成 之 前 的 每 个 数 

组 的 存 贮 操作 。 例 如 ， 月 份 字段 。 


54.13.5 可 变 参 数 
变 参 数 变 长 参数 函数 ， 实 际 上 使 用 的 就 是 数组 ， 实 际 使 用 的 就 是 数组 。 


public static void f(int... values) 
{ 

for (int i=0; i<values.length; i++) 
System.out.println(values[i]); 


public static void main(String[] args) 
1 

I O(bo2 3 45) 

} 


public static void f(int...); 

flags: ACC_PUBLIC, ACC_STATIC, ACC_VARARGS 
Code: 

stack=3, locals=2, args_size=1 

iconst 0 

istore 1 

iload 1 

aload 0 

arraylength 

if icmpge 23 

getstatic #2 // Field java/^ 
lang/System. out:Ljava/io/PrintStream; 
11: aload 0 

12: iload 1 

13: iaload 

14: invokevirtual #3 // Method java/iov 
Ç /PrintStream.println:(I)V 

Iya gno 

20: goto 2 

23: return 


SPOS Gu SUE 


人) 函数 ， 取 得 一 个 整数 数组 ， 使 用 的 是 aload_0 在 行 偏 移 3 行 。 取 得 到 了 一 个 数组 的 
大 小 ， 等 等 。 


public static void main(java.lang.String[]); 
flags: ACC PUBLIC, ACC STATIC 

Code: 

stack-4, locals-1, args size-1 

0: iconst 5 

1: newarray int 
3: dup 

4: iconst O0 

5: iconst 1 

6: iastore 

7: dup 

8: iconst 1 

9: iconst 2 

10: iastore 

11: dup 

12: iconst 2 

13: iconst 3 

14: iastore 

15: dup 

16: iconst 3 

17: iconst 4 

18: iastore 

19: dup 

20: iconst 4 

21: iconst 5 

22: iastore 

23: invokestatic #4 // Method f:([I)V 
26: return 


素 组 在 main() 函 数 是 构造 的 ， 使 用 newarray 指 令 ， 被 填充 慢 了 之 后 f() 被 调用 。 
随便 提 一 句 ， 数 组 对 象 并 不 是 在 main() 中 销毁 的 ， 在 整个 java 中 也 没有 被 析 构 。 


为 JVM 的 垃圾 收集 齐 不 是 自动 的 ， 当 他 感觉 需要 的 时 候 。format() 方 法 是 做 什么 
的 ? 它 用 两 个 参数 作为 输入 ， 字 符 串 和 数组 对 象 。 


public PrintStream format(String format, Object... args") 


让 我 们 看 一 下 。 


public static void main(String[] args) 

{ 

int i=123; 

double d-123.456; 

System.out.format("int: %d double: %f.%n", i, d^ 
C); 

} 


public static void main(java.lang.String[]); 
flags: ACC_PUBLIC, ACC_STATIC 
Code: 

stack=7, locals=4, args_size=1 
0: bipush 123 

2: istore 1 

3: ldc2 w #2 // double 123.456 

C d 

6: dstore 2 

7: getstatic #4 // Field java/^ 

C lang/System.out:Ljava/io/PrintStream; 

10: ldc #5 // String int: %d 2 

Ç double: %f.%n 

12: iconst_2 

13: anewarray £6 // class java/ 2 

C lang/Object 

16: dup 

17: iconst O 

18: iload 1 

19: invokestatic #7 // Method java/v 

Ç lang/Integer.valueOf:(I)Ljava/lang/Integer; 
22: aastore 

23: dup 

24: iconst 1 

25: dload 2 

26: invokestatic #8 // Method java/v 

C lang/Double.valueOf:(D)Ljava/lang/Double; 
29: aastore 

30: invokevirtual #9 // Method java/iov 

C /PrintStream. format: (Ljava/lang/String; [Ljava/lang/Object v 
Ç ;)Ljava/io/PrintStream; 

33: pop 

34: return 


所 以 int 和 double 类 型 是 被 首先 普 生 为 integer 和 double 对 象 ， 被 用 于 方法 的 值 。。。 
format() 方 法 需要 ， 对 象 雷 翔 的 对 象 作为 输入 ， 因 为 jinteger 和 double 类 是 继承 于 根 
类 root。 他 们 适合 作为 数组 输入 的 元 素 ， 另 一 方面 ， 数 组 总 是 同 质 的 ， 例 如 ， 同 一 
个 数组 不 能 含有 两 种 不 同 的 数据 类 型 。 不 能 同时 都 把 integer 和 double 类 型 的 数据 同 
时 放 入 的 数组 。 


数组 对 象 的 对 象 在 偏 移 13 行 ， 整 型 对 象 被 添加 到 在 行 偏 移 22. double 对 象 被 添加 到 
数组 在 29 行 。 


倒数 第 二 的 pop 指 令 ， 丢 弃 了 栈 顶 的 元 素 ， 因 此 ， 这 些 return 执 行 ， 堆 栈 是 的 空 的 
(平行 ) 


54.13.6 二 位 数组 
二 位 数组 在 java 中 是 一 个 数组 去 引用 另外 一 个 数组 让 我 们 来 创建 二 位 素 组 。( ) 


public static void main(String[] args) 


- new int[5][10]; 


public static void main(java.lang.String[]); 
flags: ACC PUBLIC, ACC STATIC 

Code: 

stack-3, locals-2, args size-1 

0: iconst 5 

1: bipush 10 

3: multianewarray Z2, 2 // class "[[I" 
7: astore 1 

8: aload 1 

9: iconst 1 

10: aaload 

11: iconst 2 

12: iconst 3 

13: iastore 

14: return 


它 创建 使 用 的 是 multianewarry 指 令 : 对 象 类 型 和 维 数 作为 操作 数 ， 数 组 的 大 小 
(10*5) ， 返 回 到 栈 中 。 (使 用 iconst 5febipushd& + ) 


行 引用 在 行 偏 移 10 加 载 (iconst 1feaaload) 列 引 用 是 选择 使 用 iconst 2 指令 ， 在 
行 偏 移 11 行 。 值 得 写 入 和 设 定 在 12 行 ，iastore 在 13 行 ， 写 入 数据 元 素 ? 


public static int get12 (int[][] in) 
{ 
return in[1][2]; 


} 

public static int geti2(int[][]); 
flags: ACC PUBLIC, ACC STATIC 
Code: 

stack-2, locals=1, args size-1 
aload 0 

iconst 1 

aaload 

iconst 2 

iaload 

ireturn 


O1330 NN nDP Oo 


引用 数组 在 行 2 加 载 ， 列 的 设置 是 在 行 3，iaload 加 载 数组 。 


54.13.7 三 维 数 组 
三 维 数 组 是 ， 引 用 一 维 数 组 引用 一 维 数组 。 


public static void main(String[] args) 
1 

int[][][] a = new int[5][10][15]; 
a[1][2][3]-74; 

get elem(a); 

} 

public static void main(java.lang.String[]); 
flags: ACC PUBLIC, ACC STATIC 

Code: 

stack-3, locals-2, args size-1 

0: iconst 5 

1: bipush 10 

3: bipush 15 

5: multianewarray #2, 3 // class "[[[I" 
9: astore 1 

10: aload 1 

11: iconst 1 

12: aaload 

13: iconst 2 

14: aaload 

15: iconst 3 

16: iconst 4 

17: iastore 

18: aload 1 

19: invokestatic #3 // Method ^ 

C get elem:([[[I)I 

22: pop 

23: return 


它 是 用 两 个 aaload 指 令 去 找 right 引 用 。 


public static int get elem (int[][][] a) 
{ 
return a[1][2][3]; 


public static int get_elem(int[][][]); 
flags: ACC_PUBLIC, ACC_STATIC 
Code: 

stack=2, locals=1, args_size=1 
aload 0 

iconst 1 

aaload 

iconst 2 

aaload 

iconst 3 

iaload 

ireturn 


NO OBRWNEF O 
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在 java 中 可 能 出 现 栈 溢出 吗 ? 不 可 能 ， 数 组 长 度 实际 就 代表 有 多 少 个 对 象 ， 数 组 的 
边界 是 可 控 的 ， 而 发 生 越 界 访问 的 情况 时 ， 会 抛 出 异常 。 


54.14 FB 


54.14.1 第 一 个 例子 
字符 囊 也 是 对 象 ， 和 其 他 对 象 的 构造 方式 相同 。 (还 有 数组 ) 


public static void main(String[] args) 

{ 

System.out.println("What is your name?"); 
String input = System.console().readLine(); 
System.out.println("Hello, "+input); 

} 

public static void main(java.lang.String[]); 
flags: ACC_PUBLIC, ACC_STATIC 

Code: 

stack=3, locals=2, args_size=1 

0: getstatic #2 // Field java/^ 

C lang/System.out:Ljava/io/PrintStream; 

3: ldc #3 // String What is^ 

C your name? 

5: invokevirtual #4 // Method java/io^ 

Ç /PrintStream.println:(Ljava/lang/String;)V 

8: invokestatic £5 // Method java/^ 

Ç lang/System.console:()Ljava/io/Console; 

11: invokevirtual #6 // Method java/iov 

C /Console.readLine:()Ljava/lang/String; 

14: astore 1 

15: getstatic £2 // Field java/ 2 

C lang/System.out:Ljava/io/PrintStream; 

18: new Z7 // class java/^7 

C lang/StringBuilder 

21: dup 

22: invokespecial £8 // Method java/v 

C lang/StringBuilder."«init»":()V 

25: ldc £9 // String Hello, 

27: invokevirtual #10 // Method java/v 

C lang/StringBuilder.append:(Ljava/lang/String;)Ljava/1lang/^ 
C StringBuilder; 

30: aload 1 

31: invokevirtual #10 // Method java/v 

Ç lang/StringBuilder .append: (Ljava/lang/String; )Ljava/lang/v 
Ç StringBuilder; 

34: invokevirtual #11 // Method java/v 

Ç lang/StringBuilder.toString:()Ljava/lang/String; 

37: invokevirtual #4 // Method java/iov 

Ç /PrintStream.printin: (Ljava/lang/String; )V 

40: return 


在 11 行 偏 移 调 用 了 readline() 方 法 ， 字 符 串 引用 (由 用 户 提 供 ) 被 存储 在 栈 顶 ， 在 14 
行 偏 移 ,字符 串 引 用 被 存储 在 LVA 的 1 号 模 中 。 


用 户 输入 的 字符 串 在 30 行 偏 移 处 重新 加 载 并 和 “hello" 字 符 进行 了 链接 ， 使 用 的 是 
StringBulder 类 ， 在 17 行 偏 移 ,构造 的 字符 串 被 pirntln 方 法 打印 。 


54.14.2 第 二 个 例子 


ZA cq 


public class strings 


T 


public static char test (String a) 


{ 

return a.charAt(3); 

3 

public static String concat (String a, String b) 
{ 

return atb; 

} 

} 


public static char test(java.lang.String); 
flags: ACC_PUBLIC, ACC_STATIC 

Code: 

stack=2, locals=1, args_size=1 

0: aload_0 

1: iconst 3 

2: invokevirtual #2 // Method java/v 

C lang/String.charAt:(I)C 

5: ireturn 


字符 串 的 链接 使 用 用 StringBuilder 类 完成 。 


public static java.lang.String concat(java.lang.String, java.^ 
C lang.String); 

flags: ACC PUBLIC, ACC STATIC 

Code: 

stack-2, locals-2, args size-2 


0: new Z3 // class java/^ 

C lang/StringBuilder 

3: dup 

4: invokespecial #4 // Method java/v 

C lang/StringBuilder."«init»":()V 

7: aload 0 

8: invokevirtual #5 // Method java/v 

Ç lang/StringBuilder.append:(Ljava/lang/String;)Ljava/1lang/^ 
Ç StringBuilder; 

11: aload 1 


12: invokevirtual £5 // Method java/^ 

C lang/StringBuilder.append:(Ljava/lang/String;)Ljava/1lang/^ 
Ç StringBuilder; 

15: invokevirtual £6 // Method java/^ 

Ç lang/StringBuilder.toString:()Ljava/lang/String; 

18: areturn 


Fie el a 


public static void main(String[] args) 


{ 
String s="Hello!"; 
int n=123; 


System.out.printin("s=" + s + " n=" + n); 


} 


字符 串 构造 用 StringBuilder 类 ， 和 它 的 添加 方法 ， 被 构造 的 字符 串 被 传递 给 println 
方法 。 


public static void main(java.lang.String[]); 


flags: 
Code: 


ACC PUBLIC, ACC STATIC 


stack-3, locals-3, args size-1 
0: ldc #2 // String Hello! 


: astore 1 
: bipush 123 
: istore 2 


lang/System.out:Ljava/io/PrintStream; 
: new Z4 // class java/^7 


C lang/StringBuilder 
12: dup 
13: invokespecial £5 


C lang/StringBuilder. 


16: ldc #6 // String 
18: invokevirtual #7 


Ç lang/StringBuilder. 


Ç StringBuilder; 
21: aload 1 
22: invokevirtual Z7 


C lang/StringBuilder. 


Ç StringBuilder; 
25: ldc £8 // String 
27: invokevirtual #7 


C lang/StringBuilder. 


C StringBuilder; 
30: iload 2 
31: invokevirtual #9 


Ç lang/StringBuilder. 
invokevirtual #10 // Method java/v 
C lang/StringBuilder. 
invokevirtual #11 // Method java/iov 


34: 


37: 


2 
3 
5 
6: getstatic #3 // Field java/^ 
Ç 
9 


// Method java/ z 

"<init>":()V 

s= 

// Method java/ z 

append: (Ljava/lang/String; )Ljava/lang/ 2 


// Method java/^7 
append: (Ljava/lang/String; )Ljava/lang/ 2 
n= 


// Method java/^7 
append: (Ljava/lang/String; )Ljava/lang/ 2 


// Method java/^7 
append: (I)Ljava/lang/StringBuilder; 


toString: ()Ljava/lang/String; 


Ç /PrintStream.println:(Ljava/lang/String;)V 


40: return 


54.15 异常 


让 我 们 稍微 修改 一 下 ， 月 处 理 的 那个 例子 (在 932 页 的 54.13.4) 


清单 54.10: IncorrectMonthException.java 


public class IncorrectMonthException extends Exception 


( 


private int index; 
public IncorrectMonthException(int index) 


this.index - index; 


public int getIndex() 
{ 


return index; 


} 
} 


清单 54.11: Month2.java 


class Month2 


{ 
public static String[] months = 


{ 

"January", 

"February", 

"March", 

"April", 

"May" 

"June", 

"July", 

"August", 

"September", 

"October", 

"November", 

"December" 

}; 

public static String get_month (int i) throws 2 
Ç IncorrectMonthException 


if (i<© || i>11) 

throw new IncorrectMonthException(i); 
return months[i]; 

}; 

public static void main (String[] args) 
{ 

try 

t 

System.out.println(get_month(100) ); 

} 

catch(IncorrectMonthException e) 

{ 

System.out.println("incorrect month ^ 
C index: "+ e.getIndex()); 
e.printStackTrace(); 


, 


} 
} 


本 质 上 ，IncorrectMonthExceptinClass 类 只 是 做 了 对 象 构造 ， 还 有 访问 器 方法 。 
IncorrectMonthExceptinClass 是 继承 于 Exception 类 ， 所 以 ，lncorrectMonth 类 构造 
之 前 ， 构 造 父 类 Exception， 然 后 传递 整数 给 IncorrectMonthException 类 作为 唯一 
的 属性 值 9 


public IncorrectMonthException(int); 
flags: ACC PUBLIC 

Code: 

stack-2, locals-2, args size-2 

0: aload 0 

1: invokespecial #1 // Method java/^ 


C lang/Exception."<init>":()V 
4: aload 0 

5: iload 1 

6: putfield #2 // Field index:I 
9: return 


getindex() A = — 4-37 Is] & » 4] M Bl IncorrectMothnException& > 74% IL VAS 0% 
(this 4), laload 0 指令 取得 ， 用 getfield 指 令 取得 对 象 的 整数 值 ， 用 ireturn 指 令 将 
其 返回 。 


public int getIndex(); 

flags: ACC PUBLIC 

Code: 

stack-1, locals=1, args size-1 
0: aload O 

1: getfield #2 // Field index:I 
4: ireturn 


现在 来 看 下 month.class 的 get month Zr X ° 
清单 54.12: Month2.class 


public static java.lang.String get month(int) throws ^ 
C IncorrectMonthException; 

flags: ACC PUBLIC, ACC STATIC 

Code: 

stack-3, locals-1, args size-1 

0: iload O 

Db n 

4: iload 0 

5: bipush 11 

7: if icmple 19 

10: new Z2 // class 2 

Ç IncorrectMonthException 

13: dup 

14: iload 0 

15: invokespecial #3 // Method ^ 

Ç IncorrectMonthException."«init»":(I)V 
18: athrow 

19: getstatic #4 // Field months:[^ 
C Ljava/lang/String; 

22: iload 0 

23: aaload 

24: areturn 


iflt 在 行 偏 移 1， 如 果 小 于 的 话 ， 


这 种 情况 其 实 是 无 效 的 索引 ， 在 行 偏 移 10 创 建 了 一 个 对 象 ， 对 象 类 型 是 作为 操作 书 
传递 指令 的 。 (这 个 IncorrectMonthException 的 构造 届时 ， 下 标 整 数 是 被 通过 TOS 
传递 的 。 行 15 偏 移 ) 时 间 流 程 走 到 了 行 18 偏 移 ， 对 象 已 经 被 构造 了 ， 现 在 athrow 
指令 取得 新 构 对 象 的 引用 ， 然 后 发 信号 给 JVM 去 找 个 合适 的 异常 匈 柄 。 


athrow 指 令 在 这 个 不 返回 到 控制 流 ， 行 19 偏 移 的 其 他 的 个 基本 模块 ， 和 异常 无 关 ， 
我 们 能 得 到 到 行 7 偏 移 。 和 句柄 怎么 工作 ?main() 在 inmonth2.class 


清单 54.13: Month2.class 


public static void main(java.lang.String[]); 

flags: ACC PUBLIC, ACC STATIC 

Code: 

stack-3, locals-2, args size-1 

0: getstatic #5 // Field java/^ 

lang/System.out:Ljava/io/PrintStream; 
bipush 100 

: invokestatic #6 // Method ^ 

get month:(1I)Ljava/lang/String; 
invokevirtual £7 // Method java/iov 

Ç /PrintStream.println:(Ljava/lang/String;)V 
11: goto 47 

14: astore_1 

15: getstatic #5 // Field java/^ 

C lang/System.out:Ljava/io/PrintStream; 

18: new #8 // class java/^7 

C lang/StringBuilder 

21: dup 

22: invokespecial #9 // Method java/v 

C lang/StringBuilder."«init»":()V 

25 ldc #10 // String 2 

Ç incorrect month index: 

27: invokevirtual #11 // Method java/v 

Ç lang/StringBuilder.append:(Ljava/lang/String;)Ljava/1lang/^ 
Ç StringBuilder; 

30: aload 1 

31: invokevirtual #12 // Method ^ 

Ç IncorrectMonthException.getIndex:()I 

34: invokevirtual #13 // Method java/v 

Ç lang/StringBuilder.append:(I)Ljava/lang/StringBuilder; 
37: invokevirtual #14 // Method java/v 

Ç lang/StringBuilder.toString:()Ljava/lang/String; 

40: invokevirtual £7 // Method java/iov 

Ç /PrintStream.println:(Ljava/lang/String;)V 

43: aload 1 

44: invokevirtual #15 // Method ^ 

Ç IncorrectMonthException.printStackTrace:()V 

47: return 

Exception table: 

from to target type 

0 11 14 Class IncorrectMonthException 


oo «C O1 WOM 


这 是 一 个 异常 表 ， 在 行 偏 移 0-11 (包括 ) 行 ， 一 个 IncorrectinMonthException 异 常 
可 能 发 生 ， 如 果 发 生 ， 控 制 流 到 达 14 行 偏 移 ， 确 实 main 程 序 在 11 行 偏 移 结束 ， 在 
14 行 异常 开始 ， 没 有 进入 此 区 域 条 件 (condition/uncondition) 设 定 ， 是 不 可 能 到 打 
这 个 位 置 的 。 (PS: 就 是 没有 异常 捕获 的 设 定 ， 就 不 会 有 异常 流 被 调用 执行 。) 


但 是 JVM 会 传递 并 履 盖 执行 这 个 异常 case。 第 一 个 astore_1( 在 行 偏 移 14) 取 得 ， 将 
到 来 的 异常 对 象 的 引用 ， 存 储 在 LVA 的 槽 参数 1 之 后 。getlndex() 方 法 (这 个 异常 对 
象 ) 会 被 在 31 行 偏 移 调用 。 引 用 当前 的 异常 对 象 ， 是 在 30 行 偏 移 之 前 。 所 有 的 这 
些 代 码 重 置 都 是 字符 囊 操作 代码 : 第 一 个 整数 值 使 用 的 是 getlndex() 方 法 ， 被 转换 


成 字符 串 使 用 的 是 toString() 方 法 ， 它 会 和 “正确 月 份 下 标 " 的 文本 字符 来 链接 ( 像 我 
们 之 前 考虑 的 那样 ) 。 printIn() 和 printStackTrace(1) 会 被 调用 ，PrintStackTrace(1) 
调用 结束 之 后 ， 异 常 被 捕获 ， 我 们 可 以 处 理 正常 的 函数 ， 在 47 行 偏 移 ，return 结 束 
main () 函数 ,如 果 没 有 发 生 异 常 ， 不 会 执行 任何 的 代码 。 


这 有 个 例子 ，|IDA 是 如 何 显 示 异 常 范围 : 
清单 54.14 我 从 我 的 计算 机 中 找到 random.class 这 个 文件 


.catch java/io/FileNotFoundException from met001_335 to ^ 
C met001 360^ 

using met001 360 

.catch java/io/FileNotFoundException from met001 185 to 2 
C met001_214\ 

using met001 214 

.catch java/io/FileNotFoundException from met001 181 to ^ 
C met001 192^ 

using met001 195 
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.catch java/io/FileNotFoundException from met001 155 to 2 
C met001_176\ 

using met001 176 

.catch java/io/FileNotFoundException from met001 83 to ^ 
C met001 129 using \ 

metO001 129 

.catch java/io/FileNotFoundException from met001 42 to ^ 
C met001 66 using \ 

met001 69 

.catch java/io/FileNotFoundException from met001 begin to ^ 
C met001 37N 

using met001 37 


【校准 到 这 结束 。] 


54.16 类 
简单 类 
清单 54.15: test.java 


public class test 


( 


public static int a; 
private static int b; 
public test() 


ublic static void set a (int input) 
-input; 


ublic static int get a () 


ATW $9 "40-20 9r 


return a; 


} 


public static void set_b (int input) 


{ 
b=input; 


} 
public static int get_b () 


( 


return b; 


j 


WE BHR? AGEdegg 4 Bx XO. 


public test(); 
flags: ACC PUBLIC 


Code: 

stack=1, locals-1, args size-1 

0: aload 0 

1: invokespecial #1 // Method java/ 2 
C lang/Object."<init>":()V 

4: iconst O 

5: putstatic #2 // Field a:I 

8: iconst O0 

9: putstatic #3 // Field b:I 

12: return 


public static void set a(int); 
flags: ACC PUBLIC, ACC STATIC 


Code: 

stack-1, locals-1, args size-1 
0: iload 0 

1: putstatic #2 // Field a:I 
4: return 


a 的 取得 器 


public static int get a(); 
flags: ACC PUBLIC, ACC STATIC 
Code: 

stack-1, locals-0, args size-0 
0: getstatic #2 // Field a:I 
3: ireturn 


public static void set b(int); 
flags: ACC PUBLIC, ACC STATIC 


Code: 

stack-1, locals-1, args size-1 
0: iload 0 

1: putstatic #3 // Field b:I 
4: return 


b 的 取得 器 


public static int get b(); 
flags: ACC PUBLIC, ACC STATIC 
Code: 

stack-1, locals-0, args size-0 
0: getstatic #3 // Field b:I 
3: ireturn 


类 中 的 公有 和 私有 字段 代码 没什么 区 别 。 但 是 类 型 信息 会 在 in.class 文件 中 表示 ， 
并 且 ， 无 论 如 何 私有 变量 是 不 可 以 被 访问 的 。 


让 我 们 创建 对 象 并 调用 方法 : 清单 54.16: ex1.java 


新 指令 创建 对 象 ， 但 不 调用 构造 函数 ( 它 在 4 行 偏 移 被 调用 ) set a()2 AMET 
偏 移 被 调用 ， 字 段 访问 使 用 的 getstatic 指 令 , 在 行 偏 移 21。 


Listing 54.16: ex1.java 

public class ex1 

{ 

public static void main(String[] args) 
{ 

test obj=new test(); 

obj.set_a (1234); 
System.out.println(obj.a); 

} 

} 


public static void main(java.lang.String[]); 
flags: ACC PUBLIC, ACC STATIC 

Code: 

stack-2, locals-2, args size-1 


0: new Z2 // class test 

3: dup 

4: invokespecial #3 // Method test."«^ 
Ç init>":()V 

7: astore 1 

8: aload 1 

9: pop 


10: sipush 1234 

13: invokestatic #4 // Method test.^ 

C set a:(I)V 

16: getstatic £5 // Field java/v 

C lang/System.out:Ljava/io/PrintStream; 
19: aload 1 

20: pop 

21: getstatic #6 // Field test.a:I 

24: invokevirtual #7 // Method java/iov 
Ç /PrintStream.println:(I)V 

27: return 


54.17 简单 的 补丁 。 


54.17.1 第 一 个 例子 


让 我 们 进入 一 个 简单 的 修补 任务 。 


public class nag 


( 


public static void nag screen() 


i 


System.out.println("This program is not v 
C registered"); 

3 

public static void main(String[] args) 


i 


System.out.println("Greetings from the mega-^ 
C software"); 
nag screen(); 


} 
} 


我 们 如 何 去 除 "This program is registered" 的 打印 输出 . 
最 会 在 IDA 中 加 载 .class 文 件 。 
清单 54.1: IDA 
我 们 修补 一 下 函数 的 第 一 个 byte 在 177( 返 回 指令 操作 码 ) 
Figure 54.2 : IDA 
这 个 在 JDK1.7 中 不 工作 
Exception in thread "main" java.lang.VerifyError: Expecting a ^7 


C stack map frame 
Exception Details: 


Location: 

nag.nag screen()V Q1: nop 
Reason: 

Error exists in the bytecode 
Bytecode: 


0000000: b100 0212 03b6 0004 b1 

at java.lang.Class.getDeclaredMethodsO(Native Method) 

at java.lang.Class.privateGetDeclaredMethods(Class.javav 
C :2615) 

at java.lang.Class.getMethodO(Class.java:2856) 

at java.lang.Class.getMethod(Class.java:1668) 

at sun.launcher.LauncherHelper.getMainMethod(?^ 

Ç LauncherHelper.java:494) 

at sun.launcher.LauncherHelper.checkAndLoadMain( 2 

Ç LauncherHelper. java: 486) 


也 许 ，JVM 有 一 些 其 他 检查 ， 关 联 到 栈 映射 。 好 的 ， 我 们 修补 成 不 同 的 ， 去 掉 
nag) HAAA ° 


清单 :54.5 IDA NOP 的 操作 码 是 0: 这 个 可 以 了 |! 


54.17.2 第 二 个 例子 


现在 是 另外 一 个 简单 的 crackme 例 子 。 


public class password 


{ 

public static void main(String[] args) 

{ 

System.out.println("Please enter the password") 2 
C; 


String input - System.console().readLine(); 
if (input.equals("secret")) 
System.out.println("password is correct^ 
e"); 
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else 

System.out.println("password is not ^ 

C correct"); 


} 
} 


图 54.4:IDA 我 们 看 ifegq 指 令 是 怎么 工作 的 ， 他 的 名 字 的 意思 是 如 果 等 于 。 这 是 不 恰 
当 的 ， 我 更 愿意 命名 if (ifz if zero) 如 果 栈 顶 值 是 0， 他 就 会 跳 转 ， 在 我 们 这 个 例子 ， 
如 果 密 码 不 正确 他 就 跳 转 。 (equal 方法 返回 的 是 0) 首先 第 一 个 方案 就 是 修 该 这 
个 指令 ... iefq 是 两 个 bytes 的 操作 码 编码 和 跳 转 偏 移 ， 让 这 个 指令 定制 ， 我 们 必须 设 
定 byte3 3byte (因为 3 是 要 添加 当前 地 址 结果 ， 总 是 跳 转 同 下 一 条 指令 ) 因为 ifeq 
的 指令 长 度 就 是 3bytes. 


图 54.5IDA 
这 个 在 JDK1.7 中 不 工作 


Exception in thread "main" java.lang.VerifyError: Expecting a v 
C stackmap frame at branch target 24 

Exception Details: 

Location: 

password.main([Ljava/lang/String;)V @21: ifeq 

Reason: 

Expected stackmap frame at this location. 

Bytecode: 

0000000: b200 0212 O3b6 0004 b800 05b6 0006 4c2b 
0000010: 1207 b600 0899 0003 b200 0212 09b6 0004 
0000020: a700 Obb2 0002 120a b600 04b1 

Stackmap Table: 

append frame(Q935,0bject[£220]) 

same frame(Q943) 

at java.lang.Class.getDeclaredMethodsO(Native Method) 
at java.lang.Class.privateGetDeclaredMethods(Class.javav 
C :2615) 

at java.lang.Class.getMethodO(Class.java:2856) 

at java.lang.Class.getMethod(Class.java:1668) 

at sun.launcher.LauncherHelper.getMainMethod(?^ 

Ç LauncherHelper.java:494) 
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at sun.launcher.LauncherHelper.checkAndLoadMain( 2 

Ç LauncherHelper. java: 486) 


不 用 说 了 ， 它 工作 在 JRE1.6 我 也 尝试 把 所 有 的 3 ifeq 的 所 有 操作 码 都 用 0 替换 
(NOP) ， 它 仍然 会 工作 ， 好 ， 可 能 没有 更 多 的 堆栈 映射 在 JRE1.7 中 被 检查 出 


好 的 ， 我 替换 整个 equal 方 法 调用 ， 使 用 icore_ 1 指令 加 NOPS 的 修改 。 
(TOS) 栈 顶 总 是 1， 当 ifeq 指 令 被 执行 ... 所 以 ifeq 也 不 会 被 执行 。 
可 以 了 。 

54.18 总 结 

和 C/C++ 比较 java 少 了 一 些 什么 ? 

结构 体 : 使 用 类 

联合 : 使 用 类 继承 。 


无 符号 数据 类 型 ， 多 说 一 句 ， 还 有 一 些 在 Java 中 实现 的 加 密 算 法 的 硬 编码 。 
函数 指针 。 


Part V 在 代码 里 面 寻 找 重要 又 有 趣 的 东西 


PART V 了 寻找 代码 中 有 趣 或 者 重要 的 部 分 


现代 软件 设计 中 ， 极 简 不 是 特别 重要 的 特性 。 
并 不 是 因为 程序 员 编写 的 代码 多 ， 而 是 由 于 许多 库 通常 都 会 静态 链接 到 可 执行 文件 
中 。 如 果 所 有 的 外 部 库 都 移入 了 外 部 DLL 文件 中 ， 情 况 将 有 所 不 同 。(C++ 使 用 STL 
和 其 他 模版 库 的 另 一 个 原因 ) 


因此 ， 确 定 函 数 的 来 源 很 重要 ， 是 否 来 源 于 标准 库 或 者 其 他 著名 的 库 ( 比 如 
Boost ;libpng)， 是 否 与 我 们 在 代码 中 寻找 的 东西 相关 。 


通过 重 写 所 有 的 C/C++ 代码 来 寻找 我 们 想 要 的 东西 是 不 现实 的 。 
逆向 工程 师 的 一 个 主要 的 任务 是 迅速 定位 到 目标 代码 。 


IDA 反 汇编 工具 允许 我 们 搜索 文本 字符 串 ， 字 节 序 列 和 人 常量。 甚至 可 以 导出 为 .lst 或 
者 .asm 文 件 ， 然 后 使 用 grep,awk 等 工具 进一步 分 析 。 

妆 你 尝试 去 理解 某 些 代 码 的 功能 时 ， 一 些 开源 库 比 如 libpng 会 容易 理解 一 些 。 当 你 
觉得 某 些 常量 或 者 文本 字符 串 眼 熟 时 ， 值 得 用 google 搜 索 一 下 。 如 果 你 发 现 他 们 在 
某 些 地 方 使 用 了 开源 项 目 时 ， 那 么 只 要 对 比 一 下 函数 就 可 以 了 。 这 些 方 法 能 够 解决 
部 分 问题 。 

举 个 例子 ， 如 果 一 个 程序 使 用 XML 文件 ， 那 么 第 一 步 是 确定 使 用 了 哪个 XML 库 。 通 
常情 况 下 使 用 的 是 标准 库 ( 或 者 有 名 的 库 ) 而 非 自 编 写 的 库 。 

再 举 个 例子 ， 有 一 次 我 尝试 去 理解 SAP 6.0 中 网 络 包 如 何 压 缩 与 解压 。 整 个 软件 很 
大 ， 但 手头 有 一 个 包含 详细 debug 信 息 的 .PDB 文件 ， 非 常 方便 。 最 后 我 找到 一 个 负 
责 解压 网 络 包 的 函数 ， 叫 CsDecomprLZC。 我 马上 就 用 google 搜 索 了 函数 名 ， 发 现 
MaxDB( 一 个 开源 SAP 项 目 ) 也 使 用 了 这 个 函数 。http://www.google.com/search? 
q-CsDecomprLZC 


然后 惊奇 的 发 现 ，MaxDB 和 SAP 6.0 使 用 同样 的 代码 来 处 理 压 缩 和 解压 网 络 包 。 
55 om 
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识别 可 执行 文件 


55.1 Microsoft Visual C++ 


可 导入 的 MSVC 版 本 和 DLL 文件 如 下 图 : 





. Marketing version | Internal version | CLEXE version | DLLs that can be imported | Release date 





6 6.0 12.00 | msvert.dll, msvcp60.dll | June 1998 

NET (2002) [70 | 13.00 | msver70.dll, msvcp70.dll | February 13, 2002 
NET 2003 [71 | 13.10 | msvcr71.dil, msvep71.dll | April 24, 2003 
2005 [80 | 14.00 | msvcr8O.dll, msvcp80.dll | November 7, 2005 
2008 1 9.0 | 15.00 | msver90.dll, msvcp90.dil | November 19, 2007 
2010 | 100 | 16.00 | msvcri00.dil, msvcp100.dil | April 12, 2010 
2012 [110 | 1700 | msvcr110.dll, msvcpii0.dil | | September 12, 2012 
2013 | | 120 | | 18. 00 | msvcr120.dll, msvcp120.dll | | October 17, 2013 
msvcp*.dll 包 含 C++ 相 关 函 数 ， 因 此 如 果 导 入 了 这 类 dl ， 便 可 推测 是 C++ 程序 。 

大 大 

55.1.1 命 名 管理 


命名 通常 以 问号 ?开始 。 
获取 更 多 关于 MSVC 命 令 管 理 的 信息 : 51.1.1 节 


55.2 GCC 
除了 *NIX 环 境 ，Win32 下 也 有 GCC， 需 要 Cygwin 和 MinGW 。 


55.2.1 命名 管理 
命名 通常 以 _Z 符 号 开头 。 
更 多 关于 GCC 命名 管理 的 信息 : 51.1.1 节 


55.2.2 Cygwin 


cygwin1.dll 经 常 被 导入 。 


55.2.3 MinGW 


msvcrt.dll 可 能 会 被 导入 。 


55.3 Intel FORTRAN 


libifcoremd.dll,libifportmd.dll£elibiomp5md.dll(OpenMP x 4) TAARA ° 
libifcoremd.dll 中 许多 函数 以 前 组 名 for 开始， 表示 FORTRAN ° 


55.4Watcom,OpenWatcom 


55.4.1 命名 管理 


命名 通常 以 W 符 号 开始 。 
举 个 例子 ， 下 面 是 "class" 类 名 为 "method" 的 方法 没有 任何 参数 并 且 返 回 void 的 加 


Py 


W?method$ class$n v 


55.5 Borland 
这 里 有 一 个 有 关 Borland Delphi 和 C++ 开发 者 命名 管理 的 例子 : 


@TApplication@IdleAction$qv 
@TApplication@ProcessMDIAccels$qp6tagMSG 
@TModule@$bctr$qpcpvt1 
@TModule@$bdtr$qv 
@TModule@Validwindow$qp14TWindowsObject 


@TrueBitmap@$bctr$qpcl 
@TrueBitmap@$bctr$qpvl 
@TrueBitmap@$bctr$qiilll 


命名 通常 以 @ 符 号 开始 ? 然后 是 类 名 方法 名 、 加 密 方 法 的 参数 类 型 E 
这 些 名 称 会 被 导入 到 .exe， .dll 和 debug 信 息 内 AE. 


Borland Visual Component Libarary(VCL) 存 储 在 .bpl 文 件 中 ， 而 不 是 .dll。 上 比如 
vcl50.dll,rtl6O.dll ° 


其 他 可 能 导入 的 DLL : BORLNDMM.DLL ° 


55.5.1 Delphi 


几乎 所 有 的 Delphi 可 执行 文件 的 代码 段 都 以 "Boolean" 字 符 串 开始 ， 和 其 他 类 型 名 称 
一 起 。 下 面 是 一 个 典型 的 Delphi 程 序 的 代码 段 开 头 ， 这 个 块 紧 接着 win32 PE 文件 
K: 


00000400 04 10 40 00 03 07 42 6f 6f 6c 65 61 6e 01 00 00 |..@ 
. ..Boolean... | 
00000410 00 00 O1 00 OO OO OO 10 40 00 05 46 61 6c 73 65 |... 


00000420 04 54 72 75 65 8d 40 00 2c 10 40 00 09 08 57 69 |.Tr 
ue.@., .@...Wi| 
00000430 64 65 43 68 61 72 03 00 00 00 00 ff ff 00 00 90 |deC 


00000440 44 10 40 00 02 04 43 68 61 72 01 00 00 00 00 ff |D.@ 


00000450 00 00 
.X.@...Smalli| 
00000460 6e 74 
TIE p.@. | 
00000470 01 07 
nteger....... | 
00000480 ff 7f 
0 Byte 
00000490 00 00 
— Ó Q...Wo| 
000004a0 72 64 
So Jee eee ca @. | 
000004b0 01 08 
ardinal...... | 
000004cO ff ff 
...@...Int64. | 
000004d0 00 00 


000004e0 e4 10 
. . Extended. . | 
000004fO f4 10 
. . Double... | 
00000500 04 11 
. --CUrrency. . | 
00000510 14 11 
... String .@. | 
00000520 Ob Oa 
ideStringO.Q.| 
00000530 Oc 07 
ariant.@.@.@. | 
00000540 Oc 0a 
leVariant..@. | 
00000550 00 00 
Beery T EE | 
00000560 00 00 
texere Q. | 
00000570 04 00 
ena M@.SM@. | 
00000580 28 4d 
.,MQ. MQ.hJQ. | 
00000590 84 4a 
.. JG. . TObject | 
000005a0 a4 11 
...TObject..&| 
000005b0 00 00 
TY System.. | 
000005cO c4 11 
. ..IInterface| 
000005dO 00 00 


000005e0 00 00 


00 


02 


49 


8b 


00 


03 


43 


ff 


00 


40 


40 


40 


40 


57 


56 


4f 


00 


00 


00 


40 


40 


40 


00 


40 


00 


00 


90 


00 


6e 


cO 


ff 


00 


61 


90 


00 


00 


00 


00 


00 


69 


61 


6c 


00 


00 


00 


00 


00 


00 


00 


00 


00 


00 


58 


80 


74 


88 


00 


00 


72 


c8 


00 


04 


04 


04 


0a 


64 


72 


65 


00 


00 


00 


2C 


co 


07 


00 


Of 


01 


46 


10 


ff 


65 


10 


00 


00 


64 


10 


00 


08 


06 


08 


06 


65 


69 


56 


00 


00 


00 


4d 


4a 


07 


00 


0a 


00 


06 


40 


ff 


67 


40 


00 


00 


69 


40 


80 


45 


44 


43 


73 


53 


61 


61 


00 


00 


00 


40 


40 


54 


00 


49 


00 


53 


00 


ff 


65 


00 


90 


Th 


6e 


00 


ff 


78 


6f 


75 


74 


74 


6e 


72 


00 


00 


00 


00 


00 


4f 


06 


49 


00 


79 


01 


7f 


72 


01 


9c 


ff 


61 


10 


ff 


74 


75 


72 


72 


72 


74 


69 


00 


00 


18 


20 


07 


62 


53 


6e 


00 


73 


08 


00 


04 


04 


10 


00 


6c 


05 


WE 


65 


62 


72 


69 


69 


8d 


61 


00 


00 


4d 


4d 


54 


6a 


79 


74 


00 


74 


53 


00 


00 


42 


40 


00 


05 


49 


ff 


6e 


6c 


65 


6e 


6e 


40 


6e 


00 


00 


40 


40 


4f 


65 


73 


65 


00 


65 


ed 


90 


00 


79 


00 


90 


00 


6e 


ff 


64 


65 


6e 


67 


67 


00 


74 


00 


00 


00 


00 


62 


63 


74 


72 


00 


ed 


61 


70 


00 


74 


01 


bo 


00 


74 


ff 


65 


01 


63 


20 


30 


40 


98 


00 


98 


24 


68 


6a 


74 


65 


66 


00 


03 


6c 


10 


80 


65 


04 


10 


00 


36 


ff 


64 


8d 


79 


11 


11 


11 


11 


00 


11 


4d 


4a 


65 


98 


ed 


61 


cO 


00 


6c 


40 


WR 


01 


57 


40 


00 


34 


7f 


02 


40 


04 


40 


40 


40 


40 


00 


40 


40 


40 


63 


11 


00 


63 


00 


ff 


69 


00 


ff 


00 


6f 


00 


ff 


00 


90 


90 


00 


90 


00 


00 


00 


00 


00 


00 


00 


00 


74 


40 


00 


65 


00 


ff 


= © 006 0 


| (M@ 


.F.System.... | 

000005fO f4 11 40 00 Of 09 49 44 69 73 70 61 74 63 68 cO |..@ 
. IDispatch.| 

00000600 11 40 00 01 00 04 02 00 00 00 00 00 cO 00 00 00 |.@. 

Eon ea eee E | 

00000610 00 00 00 46 06 53 79 73 74 65 6d 04 00 ff ff 90 |... 

F.System..... | 

00000620 cc 83 44 24 04 f8 e9 51 6c 00 00 83 44 24 04 f8 |..D 
OD | 

00000630 e9 6f 6c 00 00 83 44 24 04 f8 e9 79 6c 00 00 cc |.ol 

Db e 

00000640 cc 21 12 40 00 2b 12 40 00 35 12 40 00 01 00 00 |.!. 

@.+.@.5.@....| 

00000650 00 00 00 00 OO OO OO OO O00 cO 00 00 00 00 00 OO |... 


edm E | 
00000660 46 41 12 40 00 08 00 00 O00 00 00 OO OO 8d 40 00 |FA. 


@.......... Q. | 
00000670 bc 12 40 00 4d 12 40 00 00 00 00 00 00 00 00 00 |..@ 
‘:M.@......... | 
00000680 00 00 00 00 OO OO OO OO 00 00 00 OO OO 00 00 OO |... 
pd Ei ME | 
00000690 bc 12 40 00 Oc 00 00 00 4c 11 40 00 18 4d 40 00 |..@ 
T L.Q..MQ. | 
000006a0 50 7e 40 00 5c 7e 40 00 2c 4d 40 00 20 4d 40 00  |P-Q 
.N-0.,MQ. MQ. | 
000006b0 6c 7e 40 00 84 4a 40 00 cO 4a 40 00 11 54 49 Ge  |1-Q 
..J@. .J@. .TINn| 
000006cO 74 65 72 66 61 63 65 64 4f 62 6a 65 63 74 8b cO |ter 
facedObject.. | 
000006dO d4 12 40 00 07 11 54 49 6e 74 65 72 66 61 63 65 |..@ 
.TInterface| 
000006e0 64 4f 62 6a 65 63 74 bc 12 40 00 a0 11 40 00 00 |dOb 
ject..@...@..| 
000006fO O00 06 53 79 73 74 65 6d OO 00 8b cO 00 13 40 00 |..S 
ystem...... @. | 
00000700 11 Ob 54 42 6f 75 6e 64 41 72 72 61 79 04 00 00 |..T 
BoundArray...| 
00000710 00 00 00 OO OO 03 OO OO OO 6c 10 40 00 06 53 79 |... 
Sag ae 1.@..Sy| 


00000720 73 74 65 6d 28 13 40 00 04 09 54 44 61 74 65 54  |ste 
m(.@...TDateT | 
00000730 69 6d 65 01 ff 25 48 eO c4 00 8b cO ff 25 44 eO |ime 


数据 段 (DATA) 最 开始 的 四 字 节 可 能 是 00 00 00 00 > 32 13 8B C0 或 者 FF FF FF 
FF。 在 处 理 加 这 /加 密 的 Delphi 可 执行 文件 时 这 个 信息 很 有 用 。 


55.6 其 他 有 名 的 DLLs 


e vcomp*.dll Microsoft 实 现 的 OpenMP 


可 执行 文件 的 识别 
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第 56 章 


与 外 部 世界 通信 (win32) 


有 时 理解 函数 的 功能 通过 观察 函数 的 输入 与 输出 就 足够 了 。 这 样 可 以 节省 时 间 。 


文件 和 注册 访问 : 对 于 最 基本 的 分 析 ，Syslnternals 的 Process Monitor 工 具 很 有 
用 o 


对 于 基本 网 络 访问 分 析 ，Wireshark 很 有 帮助 。 

但 接 下 来 你 仍 需 查看 内 部 。 

第 一 步 是 查看 使 用 的 是 DOS 的 API 哪 个 函数 ， 标 准 库 是 什么 

Xt 分 为 主要 的 可 执行 文件 和 一 系列 DLL 文件 ， 那 么 DLL 文件 中 的 函数 名 可 


如 果 我 们 KP uci quas oid 细节 感 兴趣 ， 我 们 可 以 在 数据 段 中 查找 
这 个 文本 ， 定 位 文本 引用 处 ， 以 及 控制 权 交 给 我 们 感 兴 趣 的 MessageBox() 的 地 

方 o 

如 果 我 们 在 谈论 电子 游戏 ， 并 且 对 里 面 的 事件 的 随机 性 感 兴 趣 ， 那 么 我 们 可 以 查找 
rand() 示 数 或 者 类 似 函 数 ( 比 如 马 特 赛 特 放 转 演算 法 )， 然 后 定位 调用 这 些 函 数 的 地 
方 ， 更 重要 的 是 ， 函 数 执 行 结果 如 何 被 使 用 。 


但 如 果 不 是 一 个 游戏 ， 并 且 仍 然 使 用 了 rand() 驾 数 ， 找 出 原因 也 很 有 意思 。 这 里 有 
一 些 关于 在 数据 压缩 算法 中 意外 出 现 rand() 有 函数 调用 的 例子 (模仿 加 
$t) : blog.yurichev.com 


56.1 Windows APl 中 常用 的 函数 


下 面 这 些 函 数 可 能 会 被 导入 。 值 得 注意 的 是 并 不 是 每 个 函数 都 在 代码 中 使 用 。 许 多 
函数 可 能 被 库 函 数 和 CRT 代 码 调用 。 


e 注册 表 访 问 (advapi32.dll):RegEnumKeyEx, RegEnumValue, RegGetValue7, 

RegOpenKeyEx, RegQueryValueEx 

ini-file?z I*] (kernel32.dll): GetPrivateProfileString 

it 7$ 12 171 (68.2.8): (user32.dll): LoadMen 

TCP/IP %(ws2_32.dll): WSARecv, WSASend 

x fF 77 I] (kernel32.dll): CreateFile, ReadFile, ReadFileEx, WriteFile, 

WriteFileEx 

Internet 5; 2% 74 ¥] (wininet.dll): WinHttpOpen 

可 执行 文件 数字 签名 (wintrust.dll): WinVerifyTrust 

e 标准 MSVC 库 (如 果 是 动态 链接 的 ) (msvcr*.dll): assert, itoa, Itoa, open, printf, 
read, strcmp, atol, atoi, fopen, fread, fwrite, memcmp, rand, strlen, strstr, 


strchr 


56.2 tracer: 拦 截 所 有 有 函数 特殊 模块 
这 里 有 一 个 INT3 断 点 ， 只 触发 了 一 次 ， 但 可 以 为 指定 DLL 中 的 所 有 函数 设置 。 


--one-time-INT3-bp:somedll.dll!.* 


我 们 给 所 有 前 组 是 Xml 的 函数 设置 INT3 断 点 吧 : 


--one-time-INT3-bp:somedll.dll!xml.* 


另 一 方面 ， 这 样 的 断 点 只 会 触发 一 次 。 


Tracer 会 在 函数 调用 发 生 时 显示 调用 情况 ， 但 只 有 一 次 。 但 查看 函数 参数 是 不 可 能 
的 。 


尽管 如 此 ， 在 你 知道 这 个 程序 使 用 了 一 个 DLL ， ， 但 不 知道 实际 上 使 用 了 哪个 函数 并 
且 有 许多 的 函数 的 情况 下 ， 这 个 特性 还 是 很 有 用 的 。 


举 个 例子 ， 我 们 来 看 看 ，cygwin 的 Uptime 工具 使 用 了 什么 


tracer -l:uptime.exe --one-time-INT3-bp:cygwini.dll!.* 


RATT AA LPT A) E RT — X 83 cygwin1.dlUE BA > AER 


One-time INT3 breakpoint: cygwini. 


.exe!OEP+0x6d (0x40106d) ) 


One-time INT3 breakpoint: cygwini. 


time.exe!OEP+0xba3 (0x401ba3) ) 


One-time INT3 breakpoint: cygwini. 


ime.exe!OEP+Oxbaa (0x401baa)) 


One-time INT3 breakpoint: cygwini. 


time.exe!OEP-*Oxcb7 (0x401cb7 ) ) 


One-time INT3 breakpoint: cygwini. 


ime.exe!OEP+Oxcbe (0x401cbe) ) 


One-time INT3 breakpoint: cygwini. 


e.exe!OEP+0x735 (0x401735) ) 


One-time INT3 breakpoint: cygwini. 


ime.exe!OEP+0x7b2 (0x4017b2)) 


One-time INT3 breakpoint: cygwini. 


e.exe!0EP+0x994 (0x401994) ) 


One-time INT3 breakpoint: cygwini. 


me.exe!OEP+0x7ea (0x4017ea)) 


One-time INT3 breakpoint: cygwini. 


xe!0EP+0x809 (0x401809) ) 


One-time INT3 breakpoint: cygwini. 


exe! OEP+0x839 (0x401839) ) 


One-time INT3 breakpoint: cygwini. 


exe!OEP+0x139 (0x401139) ) 


One-time INT3 breakpoint: cygwini. 


Xe!OEP*0x22e (0x40122e) ) 


One-time INT3 breakpoint: cygwini. 


ime.exe!OEP+0x236 (0x401236) ) 


One-time INT3 breakpoint: cygwini. 


e.exe!OEP+0x25a (0x40125a)) 


One-time INT3 breakpoint: cygwini. 


me.exe!OEP+0x3b1 (0x4013b1)) 


One-time INT3 breakpoint: cygwini. 


me.exe!OEP+0x3c5 (0x4013c5)) 


One-time INT3 breakpoint: cygwini. 


me.exe!OEP+0x3e6 (0x4013 


dll! main (called from uptime 
dll! geteuid32 (called from up 
dll! getuid32 (called from upt 
dll! getegid32 (called from up 
dll! getgid32 (called from upt 
dll!sysconf (called from uptim 
dll!setlocale (called from upt 
dll! open64 (called from uptim 
dll! lseek64 (called from upti 
dll!read (called from uptime.e 
dll!sscanf (called from uptime 
dll!uname (called from uptime. 
dll!time (called from uptime.e 
dll!localtime (called from upt 
dll!sprintf (called from uptim 
dll!setutent (called from upti 
dll!getutent (called from upti 


dll!endutent (called from upti 


字符 串 


第 57 章 
"AE 
57.1 X T^t 


57.1.1 C/C++ 
通 的 C 字 符 串 是 以 零 结 束 的 (ASCIIZ 字 符 串 )。 
a a 史 原 因 。[Rit79 中 ]: 


A minor difference was that the unit of I/O was the word, not th 
e byte, because the PDP-7 was a word- addressed machine. In prac 
tice this meant merely that all programs dealing with character 
streams ignored null characters, because null was used to pad a 
file to an even number of characters. 


4 Hiew3 3t FAR Manager? > 字符 串 看 上 去 是 这 样 的 : 


int main() { 
printf ("Hello, world!\n"); 


}; 





57.1.2 Borland Delphi 


在 Pascal 和 Borland Delphi ? # 4f # 77 8-bit 9 zr 32-bit-K ° 
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字符 串 


举 个 例子 : 


CODE:00518AC8 dd 19h 
CODE:00518ACC aLoading Plea db 'Loading... , please wait.',0 


CODE : 00518AFC dd 10h 
CODE:00518B00 aPreparingRun__ db 'Preparing run...',0 


57.1.3 Unicode 


通常 情 况 下 ， ， 称 Unicode 是 一 种 编码 字符 串 的 方法 ， 每 个 字符 占用 2 个 字 节 或 者 
16bit。 这 这 是 一 种 常见 的 术语 错误 。 在 许多 语言 系统 中 ， Unicode cp TAE 
字符 分 配 数字 的 标准 ， 而 不 是 用 于 描述 编码 的 方法 。 


最 常用 的 编码 方法 是 : UTF-8( 在 Internet 和 *NIX 系 统 中 使 用 较 多 ) 和 UTF-16LE( 在 
Windows 中 使 用 )。 


UTF-8 


UTF-8 是 最 成 功 的 字符 编码 方法 之 一 。 所 有 拉丁 符号 编码 成 ASCII， 而 超出 ASCII 表 
的 字符 的 编码 使 用 多 个 字 节 。0 的 编码 方式 和 以 前 一 样 ， 所 有 的 标准 C 字 符 串 函数 处 
理 UTF-8 字 符 串 和 处 理 其 他 字符 串 一 样 。 


我 们 来 看 看 不 同 语言 中 的 符号 在 UTF-8 中 是 如 何 被 编码 的 ， 在 FAR 中 看 上 去 又 是 什 
么 样 的 ， 使 用 437 内 码 表 : 


How much? 100€? 


(English) I can eat glass and it doesn't hurt me. 

(Greek) Mnooó va 96% cnacutva yvaA(Ó xupíç va p6ee tinora. 
(Hungarian) Meg tudom enni az üveget, nem lesz téle bajom. 
(Icelandic) Eg get etið gler án pess að meiéa mig. 

(Polish) Moge jeść szkło i mi nie szkodzi. 

(Russian) A mory €CTb crexno, ONO MNE Me BpenxT. 

(Arabic): „iadf Y tis 9 gu)! JS pis J Dl. 
(Hebrew): ** p'ro a? AT? n*2:3*T 7240" WIS" taa. 

(Chinese) KESBTIIARETIA: 

(Japanese) WIHSAER<SNET> al dear 

(Hindi) 7f we ur zw fon Ast see ow v 





就 像 你 看 到 的 一 样 ， 英 语 于 字符 囊 看 上 去 和 ASCII 编 码 的 一 样 。 向 牙 利 语 使 用 一 些 拉 
丁 符号 加 上 变 音 标志 。 这 些 符号 使 用 多 个 字 节 编码 。 我 用 红色 下 划 线 标记 出 来 了 。 
对 于 冰岛 语 和 波兰 语 也 是 一 样 的 。 AA Fede Euro" 通行 符号 ， 编 码 为 3 个 字 
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节 。 这 里 剩 下 的 语言 系统 与 拉丁 文 没 有 联系 。 至 少 在 俄语 、 阿 拉 伯 语 、 和 希 伯 来 语 和 
印 地 语 中 我 们 可 以 看 到 相同 的 字 节 ， 这 并 不 稀奇 : 语言 系统 的 所 有 符号 通常 位 于 同 
一 个 Unicode 表 中 ， 所 以 他 们 的 号 码 前 几 个 数字 相同 。 

之 前 在 "How much?" 前 面 ， 我 们 看 到 了 3 个 字 节 ， 这 实际 上 是 BOM 。BOM 定 义 了 使 
用 的 编码 系统 。 
UTF-16LE 


在 Windows 中 ， 许 多 win32 函 数 带 有 后 级 -A 和 -W。 第 一 种 类 型 的 函数 用 于 处 理 普 
字符 串 ， 第 二 种 类 型 的 函数 用 于 处 理 UTF-16LE(wide)， 每 个 符号 存储 类 型 通常 为 


16 比 特 的 short 。 
UTF-16 中 拉丁 符号 在 Hiew 和 FAR 中 看 上 去 插入 了 0 字 节 : 


通 


int wmain() { 
wprintf (L"Hello, world!\n"); 


iz 


C:\Polygon\hw2.exe 


Re lao; worl 


c 
n 
t 
1 


Bn "Ua 800.2563 85 D Ə Va 
.PADDINGXXPADDINGPADDINGXXPADDINGPADDINGXXP 





在 IDA 中 ， 占 两 个 字 节 通常 被 称 为 Unicode : 


.data:0040E000 aHelloWorld: 
.data:0040E000 unicode 0, «Hello, world!» 
.data:0040E000 dw OAh, 0 


下 面 是 俄语 字符 串 在 UTF-16LE 中 如 何 被 编码 : 
OOO 


T  A*-9592909  7949090929A9B*2€C*99Be5*! 
= 9 E = 





容易 发 现 的 是 ， 符 号 被 插入 了 方形 字符 (ASCII 码 为 4). 实 际 上 ， 西 里 尔 符号 位 于 
Unicode 第 四 个 平面 。 因 此 ， 在 UTF-16LE 中 ， 西 里 尔 符号 的 范围 为 0x400 到 0x4FF. 


我 们 回 到 使 用 多 种 语言 书写 的 字符 囊 的 例子 中 吧 。 下 面 是 他 们 在 UTF-16LE 中 的 样 
子 o 


m view hw4 UTF16le.txt - Far 3.0.5040 x64 Administrator 


and t doesn ”tt h 


viv {VEY io VVN [ULV ww MESUMILMS 


WIES EE EE  URMIMIN ee 


fOFe'@ 64'#/41@ 94041 Lo 0 EE LOL He Ge0e'@ D4 


DIL ee ee ee ee rt 


i sat N 


yo0Kk0e04 0408 y0E07 0~0v0e0 ] 070004 y40, Pd0Q0~0 [06000 


& 
« 


: A. 





这 里 我 们 也 能 看 到 开始 处 有 一 个 BOM。 所 有 的 拉丁 字符 都 被 插入 了 一 个 0 字 节 。 我 
也 给 一 些 带 有 变 音符 号 的 字符 标注 了 红色 下 划 线 ( 铭 牙 利 语 和 冰岛 语 ) 。 


57.1.4 Base64 


Base64 编 码 方法 多 用 于 需要 将 二 进 制 数 据 以 文本 字符 串 的 形式 传输 的 情况 。 实 际 
上 ， 这 种 算法 将 3 个 二 进 制 字 节 编 码 为 4 个 可 打印 字符 : 所 有 拉丁 字母 (包括 大 小 

E) 数字 、 加 号 、 除 号 共 64 个 字符 。 

Base64 字 符 串 一 个 显著 的 特性 是 他 们 经 常 (并 不 总 是 ) 以 1 个 或 者 2 个 等 号 结尾 ， 举 个 
例子 : 


AVj bbVSVfcUMu1xvjaMgjNtueRwBbxny Jw8dpGnLW8Zw8akG3v4Y0icuQT+qEJAp 
91AO0uWs- 


WVj bbVSVfcUMu1xvjaMgjNtueRwBbxny Jw8dpGnLW8ZW8aKG3vAYOicuQT-qEJAp 
91A0uQ-- 


等 号 不 会 在 base-64 编 码 的 字符 串 中 间 出 现 。 


57.2 Error/debug messages 


调试 信息 非常 有 帮助 。 在 某 种 程度 上 ， 调 试 信息 报告 了 程序 当前 的 行为 。 EXER. 
printf 类 函数 ， 写 入 信息 到 log 文 件 中 ， 在 release 模 式 下 不 写 任何 东西 但 会 显示 调用 
信息 。 如 果 本 地 或 全 局 变量 dump 到 了 调试 信 息 中 ， 可 能 会 有 帮助 ， 至 少 能 获取 变 
量 名 。 上 比如 在 Oracle RDBMS 中 就 有 这 样 一 个 函数 ksdewt() ° 


文本 字符 串 常常 很 有 帮助 。|IDA 反 汇编 器 可 以 展示 指定 字符 串 被 哪个 函数 在 哪里 使 
用 。 经 常会 出 现 有 趣 的 状况 。 


错误 信息 也 很 有 帮助 。 在 Oracle RDBMS 中 ， 错 误 信 息 会 报告 使 用 的 一 系列 函数 。 
更 多 相关 信息 : blog.yurichev.com ° 


快速 获知 哪个 函数 在 什么 情 青 况 下 报告 了 错误 信息 是 可 以 做 到 的 。 顺 便 说 一 句 ， 这 也 
是 copy- Bn A SLA E SR LRM 而 难 懂 的 错误 信息 或 错误 码 。 没 有 人 会 为 
软件 破解 者 仅仅 通过 错误 信息 就 快速 找到 了 copy-protection 被 触发 的 原因 而 感到 高 


~ 
ZN 9 


一 个 关于 错误 信息 编码 的 例子 : 78.2 节 


57.3 Suspicious magic strings 


一 些 纪 数字 符 串 通常 使 用 在 后 门 中 ， 看 上 去 很 神秘 。 举 个 例子 ， 下面 有 一 个 TP- 
Link WR740 路 由 器 的 后 门 。 使 用 下 面 的 URL 可 以 激活 后 
T] : http://192.168.0.1/userRpmNatDebugRpm26525557/start art.html ° 


实际 上 ，"userRpmNatDebugRpm26525557" 字 符 串 会 在 硬件 中 显示 。 在 后 门 信息 
泄漏 前 ， 这 个 字符 囊 并 不 能 被 google 到 。 你 在 任何 RFC 中 都 找 不 到 这 个 。 你 也 无 法 
在 任何 计算 机 科学 算法 中 找到 使 用 了 这 个 奇怪 字 节 序列 的 地 方 。 此 外 ， 这 看 上 去 也 
不 像 错误 信息 或 者 调试 信息 。 因 此 ， 调 查 这 样 一 个 奇怪 字符 串 的 用 途 是 明智 的 。 


有 时 像 这 样 的 字符 串 可 能 使 用 了 base64 编 码 。 所 以 解码 后 再 看 一 遍 是 明智 的 ， 甚 至 
扫 一 眼 就 够 了 。 


更 确切 的 说 ， 这 种 隐藏 后 门 的 方法 称 为 security through obscurity” ° 
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调用 assert 


有 时 ，assert() 宏 的 出 现 也 是 有 用 的 : 通常 这 个 宏 会 泄漏 源 文 件 名 ， 行 号 和 条 件 。 


最 有 用 的 信息 包含 在 assert 的 条 件 中 ， 我 们 可 以 从 中 推断 出 变量 名 或 者 结构 体 名 。 
另 一 个 有 用 的 信息 是 文件 名 。 我 们 可 以 从 中 推断 出 使 用 了 什么 类 型 的 代码 。 并 且 也 
可 能 通过 文件 名 识别 出 有 名 的 开源 库 。 


.text:107D4B29 mov dx, [ecx+42h] 

.text:107D4B2D cmp edx, 1 

.text:107D4B30 jz short loc_107D4B4A 

.text:107D4B32 push 1ECh 

.text:107D4B37 push offset awrite c ; "write.c" 

.text:107D4B3C push offset aTdTd planarcon ; "td->td_planarconfi 
g == PLANARCONFIG CON"... 

.text:107D4B41 call ds: assert 


.text:107D52CA mov edx, [ebp-4] 

.text:107D52CD and edx, 3 

.text:107D52D0 test edx, edx 

.text:107D52D2 jz short loc 107D52bE9 

.text:107D52D4 push 58h 

.text:107D52D6 push offset aDumpmode c ; "dumpmode.c" 
.text:107D52DB push offset aN30 ; "(n& 3) == 0" 
.text:107D52b0 call ds: assert 


.text:107D6759 mov cx, [eax+6] 

.text:107D675D cmp ecx, OCh 

.text:107D6760 jle short loc 107D677A 

.text:107D6762 push 2D8h 

.text:107D6767 push offset aLzw c MEZ 

.text:107D676C push offset aSpLzw nbitsBit ; "sp->lzw_nbits <= B 
ITS MAX" 

.text:107D6771 call ds: assert 


同时 google 一 下 条 件 和 文件 名 是 明智 的 ， 可 能 会 因此 找到 开源 库 。 举 个 例子 ， 如 果 
我 们 google 查 找 “sp->lzw_nbits <= BITS_MAX"， 将 会 显示 一 些 与 LZW 压 缩 有 关 的 
开源 代码 。 


通常 人 们 在 生活 中 或 者 程序 员 在 编写 代码 时 喜欢 使 用 像 10，100，1000 这 样 的 整 
数 。 


有 经 验 的 逆向 工程 师 会 对 这 些 数字 的 十 六 进 制 形式 很 熟悉 : 10=0xA, 100=0x64, 
1000=0x3E8, 10000=0x2710 ° 


常量 OXAAAAAAAA (10101010101010101010101010101010) 和 0x55555555 
(01010101010101010101010101010101) 3 o ARAM 
例子 ，0x55AA 在 引导 扇 区 ，MBR，IBM 兼 容 扩展 卡 中 使 用 过 。 


某 些 算法 ， 特 别 是 密码 学 方面 的 使 用 的 常量 很 有 代表 性 ， 我 们 可 以 在 IDA 中 轻松 
到 。 


举 个 例子 ，MD5 算 法 这 样 初始 化 内 部 变量 : 
var int hO := 0x67452301 
var int h1 := OXEFCDAB89 
var int h2 := OX98BADCFE 
var int h3 := 0x10325476 
果 你 在 代码 中 某 行 发 现 这 四 个 常量 ， 那 么 极 有 可 能 该 处 函数 与 MD5 有 关 。 
另 一 个 有 关 CRC16/CRC32 算 法 的 例子 ， 通 常 使 用 预先 计算 好 的 表 来 计算 : 





/** CRC table for the CRC-16. The poly is 0x8005 (x^16 + XA15 + 
xA2 + 1) */ 
u16 const crci16 table[256] = ( 

0x0000, OxCOC1, OxC181, 0x0140, OxC301, OXxOS3CO, 0x0280, 
0xC241, 

OxC601, O0x06CO, 0x0780, OxC741, 0x0500, OxC5C1, OxC481, 
0x0440, 

OxCCO1, OxOCCO, OxOD80, OxCD41, OXOFOO, OXCFC1, OXCES81, 
0x0E40, 


CRC3 预 计算 表 同 见 : 第 37 节 
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许多 文件 格式 定义 了 标准 的 文件 头 ， 使 用 了 幻 数 。 
举 个 例子 ， 所 有 的 Win32 和 MS-DOS 可 执行 文件 以 "MZ" 这 两 个 字符 开始 。 


MIDI 文 件 的 开始 有 "MThd" 标 志 。 如 果 我 们 有 一 个 使 用 MIDI| 文 件 的 程序 ， 它 很 有 可 
能 会 检查 至 少 4 字 节 的 文件 头 来 确认 文件 类 型 。 


可 以 这 样 实现 : 
(buf 指 向 内 存 文件 加 载 的 开始 处 ) 
cmp [buf], 0x6468544D ; "MThd" 


jnz error not a MIDI file 








也 可 能 会 调用 茶 个 函数 比如 memcmp() 或 者 等 同 于 CMPSB 指 令 (A.6.3 节 ) 的 代码 用 于 
比 对 内 存 块 。 


当 你 发 现 这 样 的 地 方 ， 你 就 可 以 确定 的 MIDI 文 件 加 载 的 开始 处 ， 同 时 我 们 可 以 看 到 
缓冲 区 存放 MIDI 文 件 内 容 的 地 方 ， 什 么 内 容 被 使 用 以 及 如 何 使 用 。 


59.1.1 Dates 


59.1.2 DHCP 


上 面 的 方法 对 于 网 络 协 议 也 同样 适用 。 举 个 例子 ，DHCP 协 议 网 络 包 包含 了 magic 
cookie : 0x6353826。 任 何 生成 DHCP 包 的 代码 在 某 处 一 定 将 这 个 常量 裔 入 了 包 

中 。 它 在 代码 中 出 现 的 地 方 可 能 就 与 执行 这 些 操作 有 关 ， 或 者 不 仅 是 如 此 。 任 何 接 
收 DHCP 的 包 都 会 检查 这 个 magic cookie， 比 对 是 否 相 同 。 


举 个 例子 ， 我 们 在 Windows 7 x64 的 dhcpcore.dll 文 件 中 搜索 这 个 常量 。 找 到 两 处 : 
看 上 去 这 个 常量 在 名 为 DhcpExtractOptionsForValidation() 和 
DhcpExtractFullOptions() 4 Z& ¥ 4$ JA: 


.rdata:000007FF6483CBE8 dword 7FF6483CBE8 dd 63538263h ; DATA XR 
EF: 7 

DhcpExtractOptionsForValidation+79 
.rdata:000007FF6483CBEC dword 7 DATA XR 
EF: 7 

DhcpExtractFullOptions-*97 


下 面 是 常量 被 引用 的 地 址 : 


. text :000007FF6480875F 
. text :000007FF64808761 
. text :000007FF64808767 


. text :000007FF648082C7 
. text :000007FF648082CB 
. text :000007FF648082D1 


59.2 搜索 常量 


mov 
cmp 
jnz 


mov 
cmp 
jnz 


eax, [rsi] 
eax, cs:dword 7FF6483CBE8 
loc 7FF64817179 


eax, [r12] 
eax, cs:dword 7FF6483CBEC 
loc 7FF648173AF 


在 IDA 中 很 容易 : 使 用 ALT-B 或 者 ALT-|。 如 果 是 在 大 量 文件 或 者 在 不 可 执行 文件 中 
搜索 常量 ， 我 会 使 用 自己 编写 一 个 叫 binary grep 的 小 工具 。 


$603 
寻找 合适 的 指令 


如 果 程 序 使 用 了 FPU 指 令 但 使 用 不 多 ， 你 可 以 尝试 用 调试 器 手工 逐个 检查 。 


举 个 例子 ， 我 们 可 能 会 对 用 户 如 何在 微软 的 Excel 中 输入 计算 公式 感 兴趣 ， 比 如 除 
法 操作 。 


如 果 我 们 加 载 excel.exe(Offic 2010) 版 本 为 14.0.4756.1000 到 IDA 中 ， 列 出 所 有 的 条 
目 ， 查 找 每 一 条 FDIV 指 令 (除了 使 用 常量 作为 第 二 个 操作 数 的 一 一 显然 不 是 我 们 所 
关心 的 ) : 


cat EXCEL.1st | grep fdiv | grep -v dbl > EXCEL.fdiv 


然后 我 们 就 会 看 到 有 144 条 相关 结果 。 
我 们 可 以 在 Excel 中 输入 像 "=(1/3)" 这 样 的 字符 囊 然 后 对 指令 进行 检查 。 
通过 使 用 调试 器 或 者 tracer( 一 次 性 检查 4 条 指令 ) 检 查 指令 ， 我 们 幸运 地 发 现 目标 指 


令 是 第 14 个 : 


.text:3011E919 DC 33 fdiv qword ptr [ebx] 


PID-13944|TID-28744|(0) Ox2f64e919 (Excel.exe! BASE+0x11e919 ) 
EAX=0x02088006 EBX=0x02088018 ECX-0x00000001 EDX-0x00000001 
ESI=0x02088000 EDI=0x00544804 EBP=0x0274FA3C ESP=0x0274F9F8 
ETP=0x2F64E919 

FLAGS=PF IF 

FPU ControlWord=IC RC=NEAR PC=64bits PM UM OM ZM DM IM 

FPU StatusWord= 

FPU ST(0): 1.000000 


ST(0) 存 放 了 第 一 个 参数 ，[EBX] 存 放 了 第 二 个 参数 。 
FDIV(FSTP) 之 后 的 指令 在 内 存 中 写 入 了 结果 : 


.text:3011E91B DD 1E fstp qword ptr [esi] 


如 果 我 们 设置 一 个 断 点 ， 就 可 以 看 到 结果 : 


PID-32852|TID-36488|(0) Ox2f40e91b (Excel.exe!BASE+0x11e91b ) 
EAX-0x00598006 EBX-0x00598018 ECX-0x00000001 EDX-0x00000001 
ESI-0x00598000 EDI=0x00294804 EBP=0x026CF93C ESP=0x026CF8F8 
ETP=0x2F40E91B 

FLAGS=PF IF 

FPU ControlWord=IC RC=NEAR PC=64bits PM UM OM ZM DM IM 

FPU StatusWord=C1 P 

FPU ST(0): 0.333333 


我 们 也 可 以 恶作剧 地 修改 一 下 这 个 值 : 


tracer -l:excel.exe bpx=excel.exe! BASE+0x11E91B, set(st0,666) 


PID-36540|TID-24056|(0) Ox2f40e91b (Excel.exe! BASE+0x11e91b ) 
EAX-0x00680006 EBX-0x00680018 ECX-0x00000001 EDX-0x00000001 
ESI-0x00680000 EDI=0x00395404 EBP=0x0290FD9C ESP=0x0290FD58 
ETP=0x2F40E91B 

FLAGS=PF IF 

FPU ControlWord=IC RC=NEAR PC=64bits PM UM OM ZM DM IM 

FPU StatusWord=C1 P 

FPU ST(0): 0.333333 

Set STO register to 666.000000 


Excel 在 这 个 单元 中 显示 666， 我 们 也 可 以 确信 的 确 找到 了 正确 的 位 置 。 


Calibri "1l " A A 
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如 果 我 们 尝试 使 用 同样 的 Excel 版 本 ， 但 是 是 64 位 的 ， 会 发 现 只 有 12 个 FDIV 指 令 ， 
我 们 的 目标 指令 在 第 三 个 。 


tracer.exe -l:excel.exe bpx=excel.exe!BASE+0x1B7FCC,set(st0, 666) 


看 起 来 似乎 许多 浮 点 数 和 双 精 度 类 型 的 除法 操作 都 被 编译 器 用 SSE 指 令 比 如 
DIVSD(DIVSD 总 共 出 现 了 268 次 ) 替 换 了 。 
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可 疑 的 代码 模式 


61.1 XOR 指令 


像 XOR op 这 样 的 指令 ，op 为 寄存 器 (比如 ，xor eax，eax) 通 常用 于 将 寄存 器 的 值 设 
置 为 零 ， 但 如 果 操 作 数 不 同 ，" 互 斥 或 "运算 将 被 执行 。 在 普通 的 程序 中 这 种 操作 较 
罕见 ， 但 在 密码 学 中 应 用 较 广 ， 包 括 业 余 的 。 如 果 第 二 个 操作 数 是 一 个 很 大 的 数 
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字 ， 那 么 就 更 可 颖 了 。 可 能 会 指向 加 蜜 /解密 操作 或 校 验 和 的 计算 等 等 。 


而 这 种 观察 也 可 能 是 无 意义 的 ， 比 如 "canary"(18.3 节 )。canary 的 产生 和 检测 通常 使 
用 XOR 指 令 。 


下 面 这 个 awk 脚本 可 用 于 处 理 IDA 的 .list 文件 : 
gawk -e '$2=="xor" { tmp=substr($3, ©, Llength($3)-1); if (tmp!=$ 


4) if ($4!="esp") if ($4!="ebp") 2> 
{print$1,$2,tmp,",",$4}}'filename.1lst 


61.2 Hand-written assembly code 


现代 编译 器 不 会 emitLOOP 和 RCL 指 令 。 另 一 方面 ， 这 些 指令 对 于 直接 用 汇编 语言 
编程 的 程序 员 来 说 很 熟悉 。 如 果 你 发 现 了 这 些 指令 ， 可 以 猜测 这 部 分 代码 极 有 可 能 
是 手工 编写 的 。 这 样 的 代码 在 这 个 指令 列表 中 用 (M) 标 记 ABH © 

同时 函数 prologue/epilogue 通 常 不 会 以 手工 编写 的 汇编 的 形式 呈现 。 

通常 情况 下 ， 手 工 编写 的 代码 中 参数 传递 给 函数 没有 固定 的 系统 。 


Windows 2003 内 核 (ntoskrnl.exe 文件 ) 的 例子 : 


MultiplyTest proc 
xor 

loc 620555: 

+E 


locret 620563: 
retn 
MultiplyTest endp 


Multiply pro 
mov 
mov 
mul 
cmp 
stc 
jnz 
cmp 
stc 
jnz 
cic 

locret_62057F: 


retn 
Multiply endp 


near ; CODE XREF: Get386Stepping 
CX eX 
; CODE XREF: MultiplyTest 


CX 
Multiply 
CX 

short locret 620563 
loc 620555 


; CODE XREF:MultiplyTest+C 


c near ;CODE XREF:MultiplyTest+5 
ecx, 81h 

eax, 417A000h 

ecx 

edx,2 


short locret 62057F 
eax, OFE7A000h 


short locret 62057F 


; CODE XREF:Multiply+10 
; Multiply+18 


事实 上 ， 如 果 我 们 查看 WRK v1.2 源 码 ， 上 面 的 代码 在 WRK- 
v1.2\base\ntos\ke\i386\cpu.asm 文 件 中 很 容易 找到 。 


第 62 章 


跟踪 时 使 用 幻 数 


通常 情况 下 ， 我 们 的 主要 目标 是 理解 程序 从 文件 读 取 或 从 网 络 中 接收 的 值 的 用 途 。 
手动 跟踪 某 个 值 常常 是 个 体力 活 。 最 简单 应 对 技术 之 一 (尽管 不 是 百分之百 靠 谱 ) 是 
使 用 自 定义 的 幻 数 。 


这 在 某 种 程度 上 类 似 于 X 射 线 计算 机 断层 扫描 : 造影 剂 注 射 到 病人 的 血液 中 ， 增 强 
患者 的 内 部 结构 在 X 射 线 下 的 能 见 度 。 例 如 ， 健 康 人 的 血液 在 肾脏 活 透 是 众所周知 
的 ， 如 果 血 液 中 有 介质 则 可 以 很 容易 在 断层 中 看 到 血液 如 何 渗透 的 ， 是 否 有 结石 或 
肿瘤 。 


我 们 可 以 使 用 一 个 32 比 特 的 数字 ， 比 如 0x0badf00d， 或 者 某 人 的 生日 0x11101979 
并 将 这 个 4 字 节 数字 写 到 我 们 目标 程序 使 用 的 文件 的 某 个 位 置 。 


USE code coveraget: v T mirare UE Rc uo 再 用 grep 工 具 或 仅仅 是 文 
本 搜索 (跟踪 结果 )， 就 可 以 轻松 看 到 值 的 位 置 以 及 如 何 被 使 用 。 


使 用 cc 模式 下 tracer 的 结果 ， 可 使 用 grep : 


Oxi50bf66 ( kziaia*Ox14), e= 1 [MOV EBX, [EBP+8]] [EBP+8] 
=0xf59c934 

Ox150bf69 ( kziaia*O0x17), e= 1 [MOV EDX, [69AEB08h]] [69A 
EBO8h]=0 

0x150bf6f (_kziaia+Oxid), e= 1 [FS: MOV EAX, [2Ch]] 
0x150bf75 (_kziaia+0x23), e= 1 [MOV ECX, [EAX+EDX*4]] [EA 
X+EDX*4]=0xf1ac360 

0x150bf78 (_kziaia+0x26), e= 1 [MOV [EBP-4], ECX] ECX=0xf 
1ac360 


对 于 网 络 包 中 也 同样 适用 。 很 重要 的 一 点 是 ， 幻 数 必 须 独 特 保证 没有 在 该 程序 中 出 
现 过 。 


除了 tracer，heavydebug 模 式 下 的 DosBox(MS-DOS 份 监 器 ) 也 能 将 每 条 指令 执行 后 
寄存 器 状态 写 入 到 一 个 文本 文件 中 ， 因 此 ， 这 种 技术 对 于 DOS 程 序 也 是 很 有 用 的 。 


其 他 东西 


63.1 基本 思想 


一 个 遂 向 工程 师 应 该 尽 可 能 多 地 去 尝试 站 在 程序 开发 者 的 角度 ， 并 思考 开发 者 碰见 
某 些 特殊 情况 会 如 何 解决 。 


63.2 C++ 


RTTI(51.1.5) 的 数据 对 于 C++ 类 定义 可 能 会 有 帮助 。 


63.3 某 些 二 进 制 文 件 模式 


有 时 我 们 可 以 在 十 六 进 制 编辑 器 中 清楚 地 看 到 16/32/64 比 特 值 的 数组 。 下 面 是 一 个 

非常 典型 的 MIPS 代 码 。 每 一 个 MIPS( 还 有 ARM 或 ARM64 模 式 的 ARM) 指 令 都 是 32 

HRATT] ， 构成 32 比 特 值 的 数组 。 通 过 查看 快照 可 以 看 到 这 种 模式 。 H 了 显示 更 
清晰 我 加 了 红色 的 下 划 线 : 


Hiew: FW96650A.bin 
了 了 








另 一 个 这 种 模式 的 例子 : 第 86 节 
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63.4 内 存 快 照 比 对 


将 两 个 内 存 快照 直接 比 对 来 查看 变化 的 技术 第 用 于 做 8 比特 的 PC 游戏 的 高 分 游戏 
挂 。 


举 个 例子 ， 如 果 你 在 8 比特 的 电脑 上 加 载 了 一 个 游戏 (这 里 的 内 存 不 多 ， 但 游戏 需要 
的 内 存 通常 更 少 )， 假 设 你 知道 你 现在 有 100 发 子弹 ， 你 可 以 给 内 存 做 个 快照 放 到 某 
处 。 然 后 打 一 发 ， 子 弹 数 变 为 99， 然 后 再 做 一 个 快照 进行 比 对 : 某 处 一 定 会 有 一 个 
字 节 一 开始 是 100， 现 在 变 成 了 99。 考 虑 到 这 些 8 比 特 的 游戏 通常 用 汇编 语言 编写 ， 
并 且 这 样 的 变量 通常 是 全 局 变量 ， 可 以 确定 内 存 中 确 有 茶 个 地 址 包含 了 子弹 数目 。 
如 果 你 在 反 汇 编 后 的 游戏 代码 中 搜索 了 所 有 有 关 这 个 地 址 的 引用 ， 那 么 找到 减少 子 
弹 数 的 代码 并 不 难 ， 然 后 使 用 NOP 指 令 替 换 掉 ， 这 样 在 游戏 里 子弹 数 就 会 一 直 保 持 
100。 通 常情 况 下 8 比特 PC 游戏 加 载 地 址 不 变 ， 并 且 每 个 游戏 的 不 同 版 本 不 多 (通常 
一 个 版 本 就 会 流行 很 长 一 段 时 间 )， 所 以 游戏 爱好 者 常常 知道 哪些 地 址 的 哪些 字 节 需 
要 窗 盖 (使 用 BASIC 指 令 POKE)。 由 此 形成 了 一 个 包含 了 POKE 指 令 游 戏 挂 ， 发 布 在 
和 8 比特 游戏 有 关 的 杂志 上 。 见 :wikipedia 

同样 的 ， 修 改 高 分 文件 也 很 容易 ， 并 且 不 仅仅 是 处 理 8 比特 游戏 了 。 记 下 你 的 得 分 
数 并 且 将 文件 备份 。 当 高 分 变化 后 将 两 个 文件 进行 比 对 ， 使 用 DOS 的 FC 工 具 就 可 
以 (高 分 文件 通常 是 二 进 制 形式 )。 某 处 一 定 会 有 部 分 字 节 不 同 ， 发 现 哪些 字 节 包含 
了 得 分 数 很 容易 。 然 而 ， 游 戏 开发 者 为 了 防范 这 些 游戏 挂 可 能 会 采取 一 些 措施 。 


这 本 书 中 其 他 类 似 的 例子 : 第 85 节 


63.4.1 Windows 注 册 表 


在 程序 安装 前 后 比 对 注册 表 的 变化 也 是 可 行 的 ， 常 用 于 寻找 与 程序 有 关 的 注册 表 元 
素 。 这 也 可 能 是 "Windows registry cleaner" 共 享 软件 如 此 受 欢迎 的 原因 吧 。 


63.4.2 Blink-comparator 


文件 或 内 存 快 照 的 比 对 让 我 们 想起 了 blink-comparator : 一 种 曾 被 天 文学 家 使 用 的 
设备 ， 用 于 发 现 天 体 移动 。blink-comparator 人 允许 在 两 个 不 同时 间 摄 影 快照 问 切 
换 ， 便 于 天 文学 家 发 现 差 别 。 顺 便 说 一 名 ， 冥 王 星 就 是 在 1930 年 用 blink- 
comparator 发 现 的 。 


Part VI 操作 系统 的 特性 


第 六 十 四 章 
传递 参数 的 方法 


64.1 cdcel 


这 种 传递 参数 的 方法 在 C/C++ 语言 里 面 比较 流行 。 


如 下 的 代码 片段 所 示 ， 调 用 者 反 序 地 把 参数 压 到 栈 中 : 最 后 一 个 参数 ， 倒 数 第 二 个 
参数 ， 第 一 个 参数 。 调 用 者 还 必须 在 函数 返回 之 后 把 栈 指 针 (ESP) 还 原 为 初始 状 
太 o 


Listing 64.1: cdecl 


push arg3 

push arg2 

push argi 

call function 

add esp, 12 ; returns ESP 


64.2 stdcall 


该 调用 方法 与 cdecl 差 不 多 ， 除 了 被 调用 者 必须 通过 RET x18 4 A RET48 4$ ESP 
指针 设置 为 初始 化 状态 ， 其 中 x = arguments number * sizeof(int) 。 调 用 者 
无 需 调整 栈 指针 (ESP) ° 


Listing 64.2: stdcall 


push arg3 
push arg2 
push argi 
call function 
function: 

. do something ... 
ret 12 


这 种 调用 方式 在 win32 的 标准 库 无 处 不 在 ， 但 win64 并 不 使 用 该 调用 方法 (具体 参见 
下 文 win64 一 节 ) 。 


举 个 例子 ， 我 们 可 以 稍微 把 在 91 页 中 8.1 的 示例 代码 修改 一 下 ， 增 加 一 
个  stdcall 修饰 符 。 


int _ stdcall f2 (int a, int b, int c) 
{ 


) 


return a*b-c; 


编译 出 来 的 结果 跟 8.2 几 乎 一 模 一 样 ， 但 你 可 以 看 到 它 是 通过 RET 12 而 不 是 RET 返 
回 的 。 同 时 ， 调 用 者 并 没有 调整 栈 指针 (ESP)。 


因此 ， 很 容易 通过 RETN n 指 令 推 导出 函数 参数 的 数量 (n 除 以 四 ) © 
Listing 64.3: MSVC 2010 


za% cag nzZe =A 
Ste eters ize UT 
Behe O a Sia = 4 
 f2012 PROC 

push ebp 


mov ebp, esp 
mov eax, DWORD PTR _a$[ebp] 
imul eax, DWORD PTR _b$[ebp] 
add eax, DWORD PTR _c$[ebp] 
pop ebp 
ret 12 ; 0000000cH 
 f2012 ENDP 
push 3 
push 2 
push 
call _f2@12 
push eax 
push OFFSET $SG81369 
call _printf 
add esp, 8 


m 


64.2.1 TERA Hae 


printf() 系 列 的 函数 大 概 是 CIC++ 里 面 唯一 一 系列 具有 可 变 参 数 的 函数 了 ， 在 这 些 函 

数 的 帮助 下 很 容易 理 清 cdecl 和 stdcall 两 种 调用 方式 之 间 的 重要 区 别 。 让 我 们 先 假设 
编译 器 知道 每 个 调用 printf() 函 数 的 参数 的 个 数 ， 无 论 如 何 ， 当 我 们 调用 printf() 的 时 

候 ， 它 已 经 存在 于 编译 好 的 MSVCRTDLL 之 中 (我 们 讨论 的 是 Windows) ， 并 没有 
任何 关于 传递 多 少 个 参数 的 信息 ， 剩 下 的 办 法 就 是 通过 它 的 格式 字符 串 获 取得 到 参 
数 个 数 。 因 此 ， 如 果 printf() 辑 数 是 一 个 stdcall 调 用 方式 的 函数 ， 它 必须 通过 格式 字 

符 串 计算 参数 个 数 用 于 恢复 栈 指针 (ESP) ， 这 是 一 种 相当 危险 的 情况 ， 程 序 员 的 
一 个 错别字 就 可 以 导致 程序 前 溃 。 因 此 此 类 有 函数 使 用 cdecl 调 用 方式 远 比 使 用 stdcall 
调用 方式 适合 。 


64.3 fastcall 


这 是 一 种 将 部 分 参数 通过 寄存 器 传 入 ， 其 余 参 数 通过 栈 方式 传 入 的 方法 。 它 的 执行 
效率 在 一 些 日 时 CPU 比 cdecl/stdcall 要 好 (因为 小 栈 的 压力 ) 。 然 而 ， 在 现代 的 
CPU 中 使 用 该 调用 方式 不 一 定 能 获得 更 好 的 性 能 。 


fastcall 并 没有 一 个 标准 化 ， 因 此 不 同 的 编译 器 的 实现 可 以 不 同 。 这 是 一 个 众所周知 
的 警告 : 如 果 你 有 两 个 DLL， 其 中 第 一 个 DLL 调用 第 二 个 DLL 的 函数 ， 它 们 是 又 分 
别 不 同 的 编译 器 使 用 fastcall 调 用 方式 编译 出 来 的 ， 则 会 有 不 可 预期 的 后 果 。 


MSVC 和 GCC 两 个 编译 器 都 是 通过 ECX 和 EDX 来 传递 第 一 个 和 第 二 个 参数 ， 通 过 覆 
进行 传递 其 余 参 数 。 栈 指针 必须 被 被 调用 者 恢复 为 初始 状态 (与 stdcall 类 似 ) 。 


Listing 64.4: fastcall 


push arg3 
mov edx, arg2 
mov ecx, argi 
call function 
function: 

. do something .. 
ret 4 


举 个 例子 ， 我 们 可 以 稍微 把 8.1 的 示例 代码 修改 一 下 ， 增 加 一 个 _fastcall 修饰 
符 。 


int _ fastcall f3 (int a, int b, int c) 


{ 
return a*b+c; 
J; 
下 面 它 编 译 出 来 的 结果 : 


Listing 64.5: Optimizing MSVC 2010 /ObO 


_c$ = 8 ; size = 4 
Qf3012 PROC 
; .a$ - ecx 
; -b$ = edx 
mov eax, ecx 
imul eax, edx 
add eax, DWORD PTR _c$[esp-4] 
ret 4 
Qf3012 ENDP 
are 
mov edx, 2 
push 3 
lea ecx, DWORD PTR [edx-1] 
call @f3@12 
push eax 
push OFFSET $SG81390 
call _printf 
add esp, 8 


我 们 可 以 看 到 | 被 调用 者 使 用 RET N 指 令 来 调整 栈 指针 (ESP) 。 这 意味 着 ， 我 们 可 
以 通过 这 条 指令 来 推断 出 参数 的 个 数 。 


64.3.1 GCC regparm 


这 是 一 种 对 fastcall 调 用 方式 的 某 种 优化 。 使 用 - mregparm 编 译 选 项 可 以 设置 多 多 少 个 
参数 是 通过 寄存 器 传递 的 (最 大 为 3 个 ) 。 因 此 ，EAX，EDX 和 ECX 寄 存 器 将 被 使 
用 o 


3x > TERR 过 寄存 器 传 参 的 参数 数量 小 于 三 个 的 时 候 ， 并 没有 使 用 完 这 三 个 
寄存 器 


调用 者 需要 把 栈 指 针 恢 复 为 初始 状态 。 
相关 例子 请 参看 (19.1.1)。 


64.3.2 Watcom/OpenWatcom 417 25 


在 这 里 ， ed 寄存 器 调用 约定 ”， 头 四 个 参数 通过 EAX > EDX ，EBX 和 ECX 传 
递 。 其 余 参 数 通过 栈 传递 。 通 过 在 函数 名 上 添加 下 划 线 来 区 分 那些 不 同 的 调用 的 


2 


Æ 2 


64.4 thiscall 


这 是 C++ 里 面 传 递 this 指 针 的 成 员 有 函数 调用 约定 。 
在 MSVC 里 面 ，this 指 针 通 过 ECX 寄 存 器 来 传递 。 


在 GCC 里 面 ，this 指 针 是 通过 第 一 个 参数 进行 传递 的 。 因 此 很 明显 ， 在 所 有 成 员 函 
数 里 面 都 会 多 出 一 个 额外 的 参数 。 


相关 例子 请 查看 (51.1.1) ° 


64.5 x86-64 


64.5.1 Windows x64 


在 Win64 里 面 传递 函数 参数 的 方法 类 似 fastcall 调 用 约定 。 前 四 个 参数 通过 RCX * 
RDX，R8 和 R9 寄 存 器 传 参 ， 其 余 参 数 通 过 栈 进行 传递 。 调 用 者 还 必须 预 留 32 个 字 
节 或 者 4 个 64 位 的 空间 ， 让 被 调用 者 可 以 保存 前 四 个 参数 。 短 函数 可 能 直接 使 用 通 
过 寄存 器 传 过 来 的 值 ， 但 更 大 的 可 能 是 保存 那些 值 后 在 进一步 使 用 。 


调用 者 还 必须 负责 还 原 栈 指针 。 
这 个 调用 约定 也 用 于 Windows x86-64 位 系统 上 的 DLL (而 不 是 Win32 的 stdcall) 。 
例子 


#include <stdio.h> 
void fi(int a, int b, int c, int d, int e, int f, int g) 


printf ("%d 96d %d %d %d %d %d\n", a, b, c, d, e, f, g); 
J; 
int main() 

f1(1,2,3,4,5,6,7); 
J; 


Listing 64.6: MSVC 2012 /0b 


$SG2937 DB '%d 96d %d 96d %d 96d %d', OaH, OOH 
main PROC 
sub rsp, 72 ; 00000048H 
mov DWORD PTR [rsp+48], 7 
mov DWORD PTR [rsp-*40], 6 
mov DWORD PTR [rsp-*32], 5 
mov r9d, 4 


mov r8d, 3 
mov edx, 2 
mov ecx, 1 
call f1 
xor eax, eax 
add rsp, 72 ; 00000048H 
ret O 

main ENDP 

a$ - 80 

b$ - 88 

c$ - 96 

d$ - 104 

e$ - 112 

f$ = 120 

g$ - 128 

f1 PROC 

$LN3: 


mov DWORD PTR [rsp-*32], r9d 
mov DWORD PTR [rsp-*24], r8d 
mov DWORD PTR [rsp+16], edx 
mov DWORD PTR [rsp-*8], ecx 
sub rsp, 72 ; 00000048H 
mov eax, DWORD PTR g$[rsp] 
mov DWORD PTR [rsp+56], eax 
mov eax, DWORD PTR f$[rsp] 
mov DWORD PTR [rsp+48], eax 
mov eax, DWORD PTR e$[rsp] 
mov DWORD PTR [rsp+40], eax 
mov eax, DWORD PTR d$[rsp] 
mov DWORD PTR [rsp+32], eax 
mov r9d, DWORD PTR c$[rsp] 
mov r8d, DWORD PTR b$[rsp] 
mov edx, DWORD PTR a$[rsp] 
lea rcx, OFFSET FLAT:$SG2937 
call printf 

add rsp, 72 ; 00000048H 
ret 0 

f1 ENDP 


在 这 里 我 们 可 以 清楚 看 到 这 7 个 参数 是 如 何 传 递 的 : 4 个 参数 通过 寄存 器 传递 而 其 余 
3 个 通过 栈 传 递 。f1() 的 反 汇 编 代 码 一 开始 就 把 参数 保存 到 “ 预 留 "的 栈 空间 之 中 ， 这 
样 做 的 目的 是 编译 器 并 不 能 保证 有 足够 的 寄存 器 可 以 使 用 ， 如 果 不 这 样 做 的 话 这 四 
个 寄存 器 将 被 参数 占用 到 函数 执行 结束 。 最 后 ， 预 留 栈 空 间 是 调用 者 的 职责 。 


Listing 64.7: Optimizing MSVC 2012 /0b 


$SG2777 DB '%d %d %d %d 9d %d %d', OAH, OOH 


a$ - 80 
b$ - 88 
c$ - 96 
d$ = 104 
e$ - 112 
f$ - 120 
g$ - 128 
f1 PROC 
$LN3 
sub rsp, 72 ; 00000048H 


mov eax, DWORD PTR g$[rsp] 
mov DWORD PTR [rsp+56], eax 
mov eax, DWORD PTR f$[rsp] 
mov DWORD PTR [rsp+48], eax 
mov eax, DWORD PTR e$[rsp] 
mov DWORD PTR [rsp+40], eax 
mov DWORD PTR [rsp-*32], r9d 
mov r9d, r8d 

mov r8d, edx 

mov edx, ecx 

lea rcx, OFFSET FLAT :$SG2777 
call printf 


add rsp, 72 ; 00000048H 
ret O 

f1 ENDP 

main PROC 
sub rsp, 72 ; 00000048H 


mov edx, 2 
mov DWORD PTR [rsp+48], 7 
mov DWORD PTR [rsp+40], 6 
lea r9d, QWORD PTR [rdx+2] 
lea r8d, QWORD PTR [rdx+1] 
lea ecx, QWORD PTR [rdx-1] 
mov DWORD PTR [rsp-*32], 5 
call f1 
xor eax, eax 
add rsp, 72 ; 00000048H 
ret 0 

main ENDP 


如 果 我 们 使 用 了 编译 优化 的 开关 去 编译 上 面 的 例子 ， 它 的 反 汇 编码 几乎 是 相同 的 ， 
但 是 预 留 的 栈 空间 将 不 被 使 用 ， 因 为 在 这 里 并 不 需要 使 用 到 预 留 的 栈 空 间 。 


而 且 可 以 看 到 MSVC 2012 是 如 何 利 用 LEA 指 令 来 优化 代码 (A.6.2) 。 
我 也 不 确定 是 否 值 得 这 么 做 。 


更 多 的 例子 请 看 (74.1) 


this 指 针 的 传递 (C/C++) 


this 指 针 通 过 RCX 传 递 ， 成 员 函 数 的 第 一 个 参数 通过 RDX 传 递 ， 更 多 例子 请 看 
(51.1.1) 。 


64.5.2 Linux x64 


Linux X86-64 传 递 参 数 的 方式 几乎 和 Windows 一 样 。 但 是 是 通过 6 个 寄存 器 代替 4 个 
寄存 器 来 传 参 (RDI，RSI，RDX，RCX，R8，R9) ， 另 外 并 没有 预 留 的 栈 空 间 这 
回 事 。 虽 然 ， 如 果 它 需要 / 想 要 的 话 ， 可 以 把 寄存 器 的 值 保 存 到 栈 之 中 。 


Listing 64.8: Optimizing GCC 4.7.3 


.LCO: 
.string "%d %d 96d 96d 96d 96d %d\n" 
gue 
sub rsp, 40 
mov eax, DWORD PTR [rsp+48] 
mov DWORD PTR [rsp+8], r9d 
mov r9d, ecx 
mov DWORD PTR [rsp], r8d 
mov ecx, esi 
mov r8d, edx 
mov esi, OFFSET FLAT:.LCO 
mov edx, edi 
mov edi, 1 
mov DWORD PTR [rsp+16], eax 
xor eax, eax 
call __printf_chk 
add rsp, 40 
ret 
main: 
sub rsp, 24 
mov r9d, 6 
mov r8d, 5 
mov DWORD PTR [rsp], 7 
mov ecx, 4 
mov edx, 3 
mov esi, 2 
mov edi, 1 
call f1 
add rsp, 24 
ret 


注意 : 这 里 的 值 是 写 入 到 32-bit 的 寄存 器 (EAX...) 而 不 是 整个 64-bit 寄 存 器 
(RAX...) 。 这 是 因为 写 入 到 32-bit 寄 存 器 的 时 候 会 自动 清空 高 32-bit。 据 说 ， 这 是 
为 了 方便 把 代码 移植 到 X86-64 。 


64.6 返回 float 和 double 类 型 的 值 


除了 Win64 之 外 ， 其 它 返 回 float 和 double 类 型 的 值 都 是 通过 FPU 里 面 的 ST(0) 寄 存 器 
返回 的 。 在 Win64 里 面 ， 返 回 float 和 double 类 型 的 值 是 通过 XMM0 寄 存 器 返回 。 


64.7 修改 参数 


有 时 候 ，C/C++ 程 序 员 (虽然 不 仅仅 是 这 些 人 ) 可 能 会 问 ， 如 果 他 们 碰巧 修改 了 参 
数 会 怎样 ?答案 非常 简单 ， 这 些 参数 是 保存 在 栈 里 面 的 ， 修 改 参 数 的 时 候 是 修改 这 
个 栈 里 面 的 内 容 ， 调 用 者 并 没有 在 被 调用 兄 数 退出 之 后 再 使 用 它们 (至 少 在 我 的 实 
践 中 没有 遇 到 这 种 情况 ) 。 


#include <stdio.h> 
void f(int a, int b) 
{ 

a=atb; 

printf ("%d\n", a); 
u 


Listing 64.9: MSVC 2012 


_a$ = 8 ; size = 4 
_b$ = 12 ; size = 4 
f PROC 
push ebp 


mov ebp, esp 
mov eax, DWORD PTR _a$[ebp] 
add eax, DWORD PTR _b$[ebp] 
mov DWORD PTR _a$[ebp], eax 
mov ecx, DWORD PTR _a$[ebp] 
push ecx 
push OFFSET $SG2938 ; '%d', OaH 
call _printf 
add esp, 8 
pop ebp 
ret 0 

_f END 


是 的 ， 可 以 随便 修改 参数 。 妆 然 ， 这 得 它 不 是 C++ 的 引用 (references) 
(51.3) ， 而 且 你 如 果 不 修 改 通过 指针 指向 的 数据 。 那 么 修改 参数 是 不 会 影响 到 当 
前 函数 的 。 


从 理论 上 来 讲 ， 被 调用 者 的 函数 返回 之 后 ， 调 用 者 可 以 获取 并 修改 和 使 用 它 。 如 果 
它 是 直接 使 用 汇编 语言 编写 的 。 但 C/C++ 并 不 提供 任何 方式 可 以 访问 它们 。 


64.8 使 用 指针 的 函数 参数 


.更 有 意思 的 是 ， 有 可 能 在 程序 中 ， 取 一 个 函数 参数 的 指针 并 将 其 传递 给 另外 一 个 
函数 。 


include <stdio.h> 

// located in some other file 
void modify a (int *a); 

void f (int a) 


modify a (&a); 
printf ("%d\n", a); 


很 难 理解 它 是 如 果实 现 的 ， 直 到 我 们 看 到 它 的 反 汇 编码 : 
Listing 64.10: Optimizing MSVC 2010 


$SG2796 DB 'Xd', OaH, OOH 
_a$ = 8 
_f PROC 
lea eax, DWORD PTR _a$[esp-4] ; just get the address of 
value in local stack 
push eax ; and pass it to modify_a() 
call _modify_a 
mov ecx, DWORD PTR _a$[esp] ; reload it from the local s 


tack 
push ecx ; and pass it to printf() 
push OFFSET $SG2796 ; '%d' 
call _printf 
add esp, 12 
ret © 
_f ENDP 


传递 到 另 一 个 函数 是 a 在 栈 空 间 上 的 地 址 ， 该 函数 修改 了 指针 指向 的 值 然后 再 调用 
printf() 来 打印 出 修改 之 后 的 值 。 


细心 的 读者 可 能 会 问 ， 使 用 寄存 器 传 参 的 调用 约定 是 如 何 传递 函数 指针 参数 的 ? 


这 是 一 种 利用 了 影子 空间 的 情况 ， 输 入 的 参数 值 先 从 寄存 器 复制 到 局 部 栈 中 的 影 
空间 ， 然 后 再 讲 这 个 地 址 传递 给 其 他 函数 。 


Listing 64.11: Optimizing MSVC 2012 x64 


$SG2994 DB 'Xd', OaH, OOH 


a$ - 48 
f PROC 

mov DWORD PTR [rsp-*8], ecx ; Save input value in Sha 
dow Space 

sub rsp, 40 

lea rcx, QWORD PTR a$[rsp] ; get address of value an 


d pass it to modify a() 

call modify a 

mov edx, DWORD PTR a$[rsp] ; reload value from Shado 
w Space and pass it to printf() 

lea rcx, OFFSET FLAT:$SG2994 xc Sod 

call printf 

add rsp, 40 

ret 0 
f ENDP 


GCC 同样 将 传 入 的 参数 存储 在 本 地 栈 空间 : 
Listing 64.12: Optimizing GCC 4.9.1 x64 


.LCO0: 
.string "%d\n" 
[RS 
sub rsp, 24 
mov DWORD PTR [rsp-12], edi ; Store input value to the 1 
ocal stack 
lea rdi, [rsp+12] ; take an address of the v 


alue and pass it to modify a() 
call modify a 
mov edx, DWORD PTR [rsp+12] ; reload value from the loca 
1 stack and pass it to printf() 
mov esi, OFFSET FLAT:.LCO 
mov edi, 1 
xor eax, eax 
call __printf_chk 
add rsp, 24 
ret 


P '%d' 


ARM64 的 GCC 也 做 了 同样 的 事情 ， 但 这 个 空间 称 为 寄存 器 保护 区 : 


stp x29, x30, [sp, -32]! 


add x29, sp, O ; Setup FP 

add x1, x29, 32 ; calculate address of variable in Regis 
ter Save Area 

str wọ, [x1,-4]! ; Store input value there 

mov x0, x1 ; pass address of variable to the mod 
ify a() 

bl modify a 

ldr wi, [x29,28] ; load value from the variable and pass 


it to printf() 
adrp x0, .LCO ; '%d' 
add x0, x0, :1012:.LCO 
bl printf ; call printf() 
ldp x29, x30, [sp], 32 
ret 

.LCO: 
.string "%d\n" 


顺便 提 一 下 ， 一 个 类 似 影 子 空间 的 使 用 在 这 里 也 被 提 及 过 (46.1.2) 


o 


第 六 十 五 章 


线程 局 部 存储 


TLS 是 每 个 线程 特有 的 数据 区 域 ， 每 个 线程 可 以 把 自己 需要 的 数据 存储 在 这 里 。 一 
个 著名 的 例子 是 C 标 准 的 全 局 变量 errno。 多 个 线程 可 以 同时 使 用 errno 获 取 返 回 的 错 
误 码 ， 如 果 是 全 局 变量 它 是 无 法 在 多 线程 环境 下 正常 工作 的 。 因 此 errno 必 须 保 存在 
TLS ° 


C++11 标 准 里 面 新 添加 了 一 个 thread_local 修 饰 符 ， 标 明 每 个 线程 都 属于 自己 版 本 的 
变量 。 它 可 以 被 初始 化 并 位 于 TLS 中 。 


Listing 65.1: C++11 


#include <iostream> 
#include <thread> 
thread_local int tmp=3; 
int main() 
std::cout << tmp << std::endl; 


Hh 


使 用 MinGW GCC 4.8.1 而 不 是 MSVC2012 编 译 。 
如 果 我 们 查看 它 的 PE 文件 ， 可 以 看 到 tmp 变 量 被 放 到 TLS section ° 


65.1 ATE TF] d A EA 


前 面 第 20 章 的 纯 随 机 数 生成 器 有 一 个 缺陷 : 它 不 是 线程 安全 的 ， 因 为 它 的 内 部 状态 
变量 可 以 被 不 同 的 线程 同时 读 取 或 修改 。 


65.1.1 Win32 


未 初始 化 的 TLS 数 据 


一 个 全 局 变量 如 果 添 加 了 _declspec(thread) 修 饰 符 ， 那 么 它 会 被 分 配 在 TLS 。 


Zinclude <stdint.h> 
Zinclude <windows.h> 
Zinclude <winnt.h> 


// from the Numerical Recipes book 
#define RNG a 1664525 

#define RNG c 1013904223 

. declspec( thread ) uint32 t rand state; 


void my srand (uint32 t init) 


{ 
rand_state=init; 
} 
int my_rand () 
{ 
rand state-rand state*RNG a; 
rand state-rand state-RNG c; 
return rand state & Ox7fff; 
} 
int main() 
{ 
my_srand(0x12345678); 
printf ("%d\n", my rand()); 
J; 


使 用 Hiew 可 以 看 到 PE 文件 多 了 一 个 section : .tls。 
Listing 65.2: Optimizing MSVC 2013 x86 


_TLS SEGMENT 
rand state DD 01H DUP (?) 
_TLS ENDS 


DATA SEGMENT 
$SG84851 DB '%d', OaH, OOH 
_DATA ENDS 


_TEXT SEGMENT 
_init$ = 8 ; size = 4 


_my_srand PROC 
; FS:0-zaddress of TIB 
mov eax, DWORD PTR fs:__tls_array ; displayed in IDA as FS:2 
Ch 
; EAX-address of TLS of process 
mov ecx, DWORD PTR __tls_index 
mov ecx, DWORD PTR [eaxtecx*4] 
; ECX=current TLS segment 
mov eax, DWORD PTR _init$[esp-4] 
mov DWORD PTR _rand_state[ecx], eax 
ret 0 
_my_srand ENDP 


_my_rand PROC 
; FS:0-address of TIB 
mov eax, DWORD PTR fs: tls array ; displayed in IDA as FS:2 
Ch 
; EAX-address of TLS of process 
mov ecx, DWORD PTR __tls_index 
mov ecx, DWORD PTR [eaxtecx*4] 
; ECX=current TLS segment 
imul eax, DWORD PTR _rand_state[ecx], 1664525 
add eax, 1013904223 ; 3c6ef35fH 
mov DWORD PTR _rand_state[ecx], eax 
and eax, 32767 ; 00007fffH 
ret 0 
.my rand ENDP 


. TEXT ENDS 


rand_state 现 在 处 于 TLS 段 ， 而 且 这 个 变量 每 个 线程 都 拥有 属于 自己 版 本 。 它 是 这 
么 访问 的 : 从 FS:2Ch 加 载 TIB (Thread Information Block) 的 地 址 ， 然 后 添加 一 个 
额外 的 索引 (如 果 需 要 的 话 ) ， 接 着 计算 出 在 TLS 段 的 地 址 。 


最 后 可 以 通过 ECX 寄 存 器 来 访问 rand_state 交 量 ， 它 指向 每 个 线程 特定 的 数据 区 
域 。 


FS: 这 是 每 个 逆向 工程 师 都 很 熟悉 的 选择 子 了 。 它 专门 用 于 指向 TIB， 因 此 访问 线 
程 特定 数据 可 以 很 快 完成 。 


GS: 该 选择 子 用 于 Win64，0x58 的 地 址 是 TLS ° 
Listing 65.3: Optimizing MSVC 2013 x64 


. TLS SEGMENT 


rand state DD 01H DUP (?) 


_TLS ENDS 


- DATA SEGMENT 


$SG85451 DB '%d', OaH, OOH 


_DATA ENDS 


. TEXT SEGMENT 
init$ - 8 


my srand PROC 


mov edx, DWORD PTR tls index 
mov rax, QWORD PTR gs:88 ; 58h 
mov r8d, OFFSET FLAT:rand state 
mov rax, QWORD PTR [raxtrdx*8] 
mov DWORD PTR [r8+rax], ecx 


ret 0 
my srand ENDP 


my rand PROC 


mov rax, QWORD PTR gs:88 ; 58h 
mov ecx, DWORD PTR tls index 
mov edx, OFFSET FLAT:rand state 
mov rcx, QWORD PTR [rax*rcx*8] 
imul eax, DWORD PTR [rcx+rdx], 1664525 ;0019660dH 
add eax, 1013904223 ; 3c6ef35fH 
mov DWORD PTR [rcx-*rdx], eax 
and eax, 32767 ; 00007fffH 


ret 0 
my rand ENDP 


. TEXT ENDS 


初始 化 TLS 数 据 


比方 说 ， 我 们 想 为 rand_state 设 置 一 


序 员 忘记 初始 化 。 


Zinclude <stdint.h> 
Zinclude <windows.h> 
Zinclude <winnt.h> 


// from the Numerical Recipes book 

#define RNG a 1664525 

Zdefine RNG c 1013904223 

. declspec( thread ) uint32 t rand state-1234; 


void my srand (uint32 t init) 


{ 
rand_state=init; 
} 
int my_rand () 
{ 
rand state-rand state*RNG a; 
rand state-rand state-RNG c; 
return rand state & Ox7fff; 
} 


int main() 


printf ("%d\n", my rand()); 
J; 


代码 除了 给 rand_state 设 定 初始 值 外 与 之 前 的 并 没有 什么 不 同 ， 但 在 IDA 我 们 看 到 : 


.tls:00404000 ; Segment type: Pure data 

.tls:00404000 ; Segment permissions: Read/Write 
.tls:00404000 tls segment para public 'DATA' use32 
.tls:00404000 assume cs: tls 

.tls:00404000 ;org 404000h 

.tls:00404000 TlsStart db © ; DATA XREF: .rdata:TlsDirectory 
.tls:00404001 db 0 

.tls:00404002 db 0 

.tls:00404003 db 0 

.tls:00404004 dd 1234 

.tls:00404008 TlsEnd db © ; DATA XREF: .rdata:TlsEnd pt 


每 次 一 个 新 的 线程 运行 的 时 候 ， 会 分 配 新 的 TLS 给 它 ， 然 后 包括 1234 所 有 数据 将 被 


拷贝 过 去 。 
这 是 一 个 典型 的 场景 : 


e 线程 A 开始 运行 ， 然 后 分 配给 它 一 个 TLS， 并 把 1234 拷 贝 到 rand_state 。 
e AAA d& 2 KA Jl my_rand() 44 > rand state 2$ 757€ 1234 © 


线程 B 开 始 运行 ‘ 然后 分 配给 它 一 个 TLS , #4812347 Jl £| rand. state 1 这 时 
候 可 以 观察 到 两 个 线程 使 用 同一 个 变量 ， 但 它们 的 值 是 不 一 样 的 。 


TLS callbacks 


如 果 我 们 想 给 TLS 赋 一 个 变量 值 呢 ? 比方 说 : 程序 员 忘 记 调 用 my srand() ic x do 
始 化 PRNG， 但 是 随机 数 生 成 器 在 开始 的 时 候 必 须 使 用 一 个 真正 的 随机 数值 而 不 是 
1234。 这 种 情况 下 则 可 以 使 用 TLS callbaks 。 


下 面 的 代码 的 可 移植 性 很 差 ， 原 因 你 应 该 明白 。 我 们 定义 了 一 个 函数 
(tls_callback())， 它 在 进程 /线程 开始 执行 前 调用 ， 该 函数 使 用 GetTickCount() 却 数 
的 返回 值 来 初始 化 PRNG 。 


Zinclude <stdint.h> 
Zinclude <windows.h> 
Zinclude <winnt.h> 


// from the Numerical Recipes book 
Zdefine RNG a 1664525 

#define RNG c 1013904223 

. declspec( thread ) uint32 t rand state; 


void my srand (uint32 t init) 


{ 
} 


void NTAPI tls_callback(PVOID a, DWORD dwReason, PVOID b) 
{ 


} 


#pragma data_seg(".CRT$XLB") 
PIMAGE_TLS_CALLBACK p_thread_callback = tls_callback; 
#pragma data_seg() 


rand_state=init; 


my_srand (GetTickCount()); 


int my_rand () 


{ 
rand_state=rand_state*RNG_a; 
rand_state=rand_state+RNG_C; 
return rand state & Ox7fff; 

} 

int main() 

{ 


// rand_state is already initialized at the moment (using Ge 
tTickCount()) 

printf ("%d\n", my rand()); 
3 


用 IDA 看 一 下 : 
Listing 65.4: Optimizing MSVC 2013 


.text:00401020 TlsCallback © proc near ; DATA XREF: .rdata:TlsCa 
llbacks 


.text:00401020 call ds:GetTickCount 
.text:00401026 push eax 
.text:00401027 call my srand 
.text:0040102C pop ecx 
.text:0040102D retn OCh 


.text:0040102D Tl1sCallback 0 endp 


.rdata:004020CO TlsCallbacks dd offset TlsCallback © ; DATA XREF 
.rdata:TlsCallbacks ptr 


.rdata:00402118 TlsDirectory dd offset TlsStart 
.rdata:0040211C TlsEnd ptr dd offset TlsEnd 
.rdata:00402120 TlsIndex ptr dd offset TlsIndex 
.rdata:00402124 TlsCallbacks ptr dd offset TlsCallbacks 


.rdata:00402128 TlsSizeOfZeroFill dd 0 
.rdata:0040212C TlsCharacteristics dd 300000h 


TLS callbacks H% tT $ A FAS 35, AR G1, Ab ET FZ o AML AULA TRAM AR AIA 
些 代码 可 以 偷偷 地 在 DOEP (Original Entry Point) 之 前 执行 。 


65.1.2 Linux 
下 面 是 GCC 声明 线程 局 部 存储 的 方式 : 
. thread uint32 t rand state-1234; 
这 不 是 标准 C/C++ 的 修饰 符 ， 但 是 是 GCC 的 一 个 扩展 特性 。 


GS : 该 选择 子 同 样 用 于 访问 TLS， 但 稍微 有 点 区 别 : 
Listing 65.5: Optimizing GCC 4.8.1 x86 


.text 
.text 


.text: 
:08048460 
:08048460 
:08048464 
:0804846A 
:0804846A 
:08048470 


.text 
.text 
.text 
.text 
.text 
.text 


.text: 
:0804847B 
:08048480 
:08048486 
:0804848B 
:0804848B 


.text 
.text 
.text 
.text 
.text 


: 08048460 
: 08048460 


08048460 


08048470 


my_srand proc near 
arg_O = dword ptr 4 


mov eax, [esptarg_0] 
mov gs:OFFFFFFFCh, eax 
retn 

my_srand endp 

my_rand proc near 
imul eax, gs:OFFFFFFFCh, 19660Dh 
add eax, 3C6EF35Fh 
mov gs:OFFFFFFFCh, eax 
and eax, 7FFFh 
retn 

my_rand endp 


更 多 例子 : ELF Handling For Thread-Local Storage 


大 大 ` xL 
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系统 调用 (syscall-s) 

众所周知 ， 所 有 运行 的 进程 在 操作 系统 里 面 分 为 两 类 : 一 类 拥有 访问 全 部 硬件 设备 
的 权限 (内核 空间 ) 而 另 一 类 无 法 直接 访问 硬件 设备 (用 户 空间 )。 

操作 系统 内 核 和 驱动 程序 通常 是 属于 第 一 类 的 。 

而 应 用 程序 通常 是 属于 第 二 类 的 。 

举 个 例子 ，Linux kernel 运 行 于 内 核 空 间 ， 而 Glibc 运 行 于 用 户 空 间 。 

这 种 分 离 对 与 操作 系统 的 安全 性 是 至 关 重 要 的 : 它 最 重要 的 一 点 是 ， 不 给 任何 进程 
有 破坏 到 其 它 进程 其 至 是 系统 内 核 的 机 会 。 另 一 方面 ， 一 个 错误 的 驱动 或 系统 内 核 
错误 都 会 造成 系统 崩溃 或 者 蓝屏 。 

保护 模式 下 的 X86 处 理 器 允许 使 用 4 个 保护 等 级 (ring) 。 但 Linux 和 Windows 两 个 操 
作 系统 都 只 使 用 了 两 个 : ring0 (内 核 空间 ) 和 ring3 (用 户 空间 ) 。 

系统 调用 (syscall-s) 是 两 个 运行 空间 的 连接 点 。 可 以 说 ， 这 是 提供 给 应 用 程序 主 
ZH API ° 

在 Windows NT， 系 统 调用 表 存 在 于 SSDT。 


通过 系统 调用 实现 shellcode 在 计算 机 病毒 作者 之 间 非 常 流行 。 因 为 很 难 确定 所 需 函 
数 在 系统 库 里 面 的 地 址 ， 但 系统 调用 很 容易 确定 。 然 而 ， 由 于 系统 调用 属于 比较 底 
层 的 APl， 所 以 需要 编写 更 多 的 代码 。 最 后 值得 一 提 的 是 ， 在 不 同 的 操作 系统 版 本 
里 面 ， 系统 调 用 号 是 有 可 能 不 同 的 。 


66.1 Linux 


在 Linux 系 统 中 ， 系 统 调用 通常 使 用 int 0x80 中 断 进 行 调用 。 通 过 EAX 寄 存 器 传递 调 
用 号 ， 再 通过 其 它 寄存 器 传递 所 需 参数 。 


Listing 66.1: A simple example of the usage of two syscalls 


section 


global . 


start: 
mov 
mov 
mov 
mov 
int 
mov 
int 
section 


msg db ' 


len equ 


编译 : 


nasm -f 
ld 1.0 


.text 

start 

edx, len ; buf len 

ecx,msg ; buf 

ebx, 1 ; file descriptor. stdout is 1 
eax,4 ; Syscall number. sys write is 4 
0x80 

eax,1 ; Syscall number. sys exit is 4 
0x80 

.data 

Hello, world!',0Oxa 

$ - msg 

elf32 1.s 


Linux 所 有 的 系统 调用 在 这 里 可 以 查看 http://go.yurichev.com/17319 » 
在 Linux 中 可 以 使 用 strace(71 章 ) 对 系统 调用 进行 跟踪 或 者 拦截 。 


66.2 Windows 


Windows 系 统 使 用 int 0x2e 中 断 或 x86 下 特有 的 指令 SYSENTER 调 用 用 系统 调用 服 


务 。 


Windows 所 有 的 系统 调用 在 这 里 可 以 查看 : http://go.yurichev.com/17320 ° 


扩展 阅读 : 


“Windows Syscall Shellcode” by Piotr Bania 


第 六 十 七 章 
Linux 


67.1 位 置 无 关 代码 


在 分 析 Linux 共 享 库 (.So) 的 时 候 ， 可 能 会 经 常 看 到 类 似 下 面 的 代码 : 
Listing 67.1: libc-2.17.so x86 


. text :0012D5E3 
17350+3 
.text:0012D5E3 ; 
. text :0012D5E3 

. text :0012D5E6 

. text :0012D5E6 


x86_get_pc_thunk_bx proc near ; CODE XREF: sub_ 





sub_173CC+4 
mov ebx, 
retn 

x86_get_pc_thunk_bx endp 


[esp+0] 





.text:000576C0 sub_576C0 proc near ; CODE XREF: tmpfile+73 


SEXES 





000576C0 push ebp 
.text:000576C1 mov ecx, large gs:0 
. text :000576C8 push edi 
.text:000576C9 push esi 
.text:000576CA push ebx 
. text :000576CB call x86 get pc thunk bx 
. text :000576D0 add ebx, 157930h 
.text:000576D6 sub esp, 9Ch 
.text:000579F0 lea eax, (a gen tempname - 1AF000h)[ebx] ; " 
. gen tempname" 
.text:000579F6 mov [esp-OACh-var A0], eax 
. text :000579FA lea eax, (a SysdepsPosix - d1AF000h)[ebx] ; " 


../sysdeps/posix/tempname.c" 


Be oes 
,七 eXt : 


! \"invalid KIND in __gen_tempname\"" 


00057A00 
00057A04 


mov [esp+0ACh+var_A8], eax 
(aInvalidKindIn_ - 1AF000h)[ebx] ; " 


lea eax, 


. text: 00057A0A mov [esp+0ACh+var_A4], 14Ah 
. text :00057A12 mov [esp*-OACh-var AC], eax 
. text :00057A15 call | assert fail 


所 有 指向 字符 串 的 指针 都 需要 通过 在 每 个 函数 开始 处 计算 的 EBX 值 和 一 些 常量 值 来 
修正 地 址 。 这 就 是 所 谓 的 PIC 〈 位 置 无 关 代码 ) 


内 存 中 任何 随机 位 置 都 能 正确 地 执行 。 


， 它 的 目的 是 让 这 上 段 代码 即使 放 在 


这 也 是 为 什么 不 能 使 用 绝对 地 址 的 原因 。 


PIC (位 置 无 关 代 码 ) 对 于 早期 的 操作 系统 和 现在 那些 没有 虚拟 内 存 支 持 的 诅 入 式 
系统 来 说 至 关 重 要 (所 有 进程 都 放 在 同一 个 连续 的 内 存 块 )。 此 外 ， 它 还 用 于 *NIX 
系统 的 共享 库 。 这 样 共 享 库 只 需要 加 载 一 次 到 内 存 之 后 就 可 以 让 所 有 需要 的 进程 使 
用 。 而 且 这 些 进程 可 以 把 同一 个 共享 库 映 射 到 各 自 不 同 的 内 存 地 址 上 。 这 也 是 为 什 
么 共享 库 不 使 用 绝对 地 址 也 能 够 正常 地 工作 的 原因 。 


让 我 们 做 一 个 简单 的 实验 : 
Zinclude «stdio.h» 


int global variable-123; 
int fi(int var) 


{ 
int rt=global_variable+var; 
printf ("returning %d\n", rt); 
return rt; 

H 


用 GCC 4.7.3 编 译 它 并 用 IDA 查 看 .so 文件 的 反 汇 编 代 码 : 


gcc -fPIC -shared -03 -0 1.so 1.c 














.text:00000440 public x86 get pc thunk bx 
.text:00000440 x86 get pc thunk bx proc near ; CODE XREF: ini 
t proc*4 

.text:00000440 ; deregister tm clones-4 
.text:00000440 mov ebx, [esp+0] 

. text : 00000443 retn 

.text:00000443 x86 get pc thunk bx endp 
.text:00000570 public f1 

.text:00000570 f1 proc near 

. text :00000570 

.text:00000570 var 1C = dword ptr -1Ch 
.text:00000570 var 18 - dword ptr -18h 
.text:00000570 var 14 - dword ptr -14h 
.text:00000570 var 8 - dword ptr -8 
.text:00000570 var 4 - dword ptr -4 
.text:00000570 arg 0 = dword ptr 4 

. text :00000570 

.text:00000570 sub esp, 1Ch 
.text:00000573 mov [esp*riCh-var 8], ebx 

. text :00000577 call x86 get pc thunk bx 
.text :0000057C add ebx, 1A84h 

. text :00000582 mov [esp*riCh-var 4], esi 
.text:00000586 mov eax, ds:(global variable ptr - 2000h)[ebx 
] 

. text :0000058C mov esi, [eax] 
.text:0000058E lea eax, (aReturningD - 2000h)[ebx] ; "return 
ing %d\n" 

.text:00000594 add esi, [esp-*1Ch-«arg 0] 
.text:00000598 mov [espriCh-var 18], eax 
.text:0000059C mov [esp*riCh-var 1C], 1 
.text:000005A3 mov [espriCh-*var 14], esi 
. text: 000005A7 call _ printf chk 

. text : 000005AC mov eax, esi 

. text :000005AE mov ebx, [esp-*iCh-var. 8] 

. text :000005B2 mov esi, [esp-*iCh-var 4] 
.text:000005B6 add esp, iCh 

. text: 000005B9 retn 

.text:000005B9 f1 endp 


如 上 所 示 : 每 个 函数 执行 时 都 会 修正 指向 “returning 9edW"feglobal variable #4) 48 
针 。 x86 get pc thunk _bx() 函 数 自 身 调 用 后 在 EBX 返 回 一 个 指针 (这 里 是 


Ox57C) 。 这 是 一 种 获取 程序 计数 器 (EIP) 的 简单 方法 。0x1A84 常 量 是 这 个 函数 
开始 处 到 Global Offset Table Procedure Linkage Table(GOT PLT) 它们 之 问 的 距离 
差 。IDA 会 把 这 些 偏 移 处 理 成 更 容 多 理解 后 再 显示 出 来 ， 所 以 实际 上 的 代码 是 : 


.text:00000577 call x86 get pc thunk bx 
.text:0000057C add ebx, 1A84h 
.text:00000582 mov [esp*iCh-var 4], esi 
.text:00000586 mov eax, [ebx-OCh] 
.text:0000058C mov esi, [eax] 
.text:0000058bE lea eax, [ebx-1A30h] 





这 里 的 EBX 指 向 了 GOT PLT section » Z1 it X: global variable (存储 在 GOT) 的 地 
址 时 人 须 减 去 0x0C 偏 移 量 。 当 计算 "returning %d\n" 字 符 串 的 地 址 时 须 减 去 0x1A30 偏 
移 量 。 


顺便 说 一 下 ， AMD64 的 指令 支持 使 用 RIP 用 于 相对 寻 址 ， 这 使 得 它 可 以 产生 出 更 简 
洁 的 PIC 代 码 。 
让 我 们 用 相同 的 GCC 编 译 器 编译 相同 的 C 代 码 ， 但 使 用 x64 平 台 。 


IDA 会 简化 了 反 汇 编 代码 ， 造 成 我 们 无 法 看 到 使 用 RIP 相 对 寻 址 的 细节 ， 所 以 我 在 这 
里 使 用 了 objdump 来 查看 反 汇 编 代 码 : 


0000000000000720 «f1»: 
720: 48 8b 05 b9 08 20 00 mov rax,QWORD PTR [rip-*0x2008b9] £ 
200fe0 <_DYNAMIC+0x1d0> 


VALE 58 push rbx 

728: 89 fb mov ebx,edi 

72a: 48 8d 35 20 00 00 00 lea rsi,[rip*0x20] #751 <_fini+0x9> 
731: bf 01 00 00 00 mov edi, 0x1 

736: 03 18 add ebx,DWORD PTR [rax] 
738: 31 cO XOr eax,eax 

73a: 89 da mov edx,ebx 

73c: e8 df fe ff ff call 620 « printf chkQplt» 
7141: 89 d8 mov eax,ebx 

743: 5b pop rbx 

744: c3 ret 


0x2008b9 是 0x720 处 指令 地 址 到 global - variable 地 址 的 差 ，0x20 是 0x72a 处 指令 地 
址 到 "returning %d\n" 字 符 串 地 址 的 差 。 


你 可 能 会 看 到 ， 频 繁重 新 计算 地 址 会 导致 执行 效率 变 差 (虽然 在 x64 会 更 好 ) 。 所 
以 如 果 你 比较 关心 性 能 的 话 最 好 还 是 使 用 静态 链接 。 


67.1.1 Windows 


Windows 的 DLL 并 没有 使 用 PIC 机 制 。 如 果 Windows 加 载 器 需 加 载 DLL 到 另外 一 个 
基地 址 ， 它 会 在 内 存 中 (在 固定 的 位 置 ) 对 DLL " 打 补 丁 " 来 将 所 有 地 址 都 调整 为 正 
确 的 。 这 意味 着 多 个 Windows 进 程 不 能 在 不 同 进程 内 存 块 的 不 同 地 址 共享 一 份 
DLL ， 因 为 每 个 实例 加 载 在 内 存 后 只 固定 在 这 些 地 址 工作 。 


67.2 LD PRELOAD hack in Linux 


Linux 人 允许 让 我 们 自己 的 动态 链接 库 加 载 在 其 它 动态 链接 库 之 前 ， 甚 至 是 系统 库 (如 
libc.so.6) ° 


反 过 来 起， 也 就 是 允许 我 们 用 自己 写 的 函数 去 “代替 ”系统 库 的 函数 。 举 个 例子 ， 我 
们 可 以 很 容易 地 拦截 掉 time()，read()，write() 等 等 这 些 函 数 。 


来 瞻 瞪 我 们 是 如 何 轧 弄 Uptime 这 个 程序 的 。 我 们 知道 ， 该 程序 显示 计算 机 已 经 工作 
了 多 长 时 间 。 借 助 strace 的 帮助 可 以 看 到 ， 该 程序 通过 /proc/uptime 文 件 获取 到 计算 
机 的 工作 时 长 。 


$ strace uptime 


open("/proc/uptime", O RDONLY) = 3 
lseek(3, 0, SEEK SET) = 0 
read(3, "416166.86 414629.38\n", 2047) = 20 


Iproc/uptime3f 7 Æ 4 2 £e BE 2 05 A Sc Ho f x Linux Kernel 产生 一 个 虚拟 的 文 
件 。 它 有 两 个 数值 : 


$ cat /proc/uptime 
416690.91 415152.03 


我 们 可 以 用 wikipedia 来 看 一 下 它 的 含义 : 


第 一 个 数值 是 系统 运行 总 时 长 ， 第 二 个 数值 是 系统 空闲 的 时 间 。 都 以 秒 为 单位 表示 。 


我 们 来 写 一 个 含 open()，read()，close() 函 数 的 动态 链接 库 。 


首先 ， 我 们 的 open() 函 数 会 比较 一 下 文件 名 是 不 是 我 们 所 想 要 打开 的 ， 如 果 是 ， 则 
将 文件 描述 符 记 录 下 来 。 然 后 ，read() 有 函数 会 判断 如 果 我 们 调用 的 是 不 是 我 们 所 保 
存 的 文件 描述 符 ， 如 果 是 则 代替 它 输出 ， 否 则 调用 libc.so.6 里 面 原来 的 函数 。 最 
后 ，close() 函 数 会 关闭 我 们 所 保存 的 文件 描述 符 。 


在 这 里 我 们 借助 了 dlopen() 和 dlsym() 函 数 来 确定 原先 在 libc.so.6 的 函数 的 地 址 ， 
ARTE RAE HOA KH) BAH o 


题 外 话 ， 如 果 我 们 的 程序 想 劫持 strcmp() 函 数 来 监控 每 个 字符 串 的 比较 ， 则 需要 我 
们 自己 实现 一 个 strcmp() 函 数 而 不 能 用 原先 的 函数 。 


#include <stdio.h> 

#include <stdarg.h> 
#include <stdlib.h> 
#include <stdbool.h> 


#include <unistd.h> 
#include <dlfcn.h> 
#include <string.h> 


void *libc_handle = NULL; 

int (*open_ptr)(const char *, int) = NULL; 

int (*close_ptr)(int) = NULL; 

ssize t (*read ptr)(int, void*, size_t) = NULL; 
bool inited - false; 


_Noreturn void die (const char * fmt, ...) 
{ 

va_list va; 

va_start (va, fmt); 

vprintf (fmt, va); 

exit(0); 
3 


static void find original functions () 
{ 
if (inited) 
return, 
libc handle = dlopen ("libc.so.6", RTLD LAZY); 
if (libc handle-zNULL) 
die ("can't open libc.so.6\n"); 
open ptr - dlsym (libc handle, "open"); 
if (open ptr-zNULL) 
die ("can't find open()\n"); 
close ptr - dlsym (libc handle, "close"); 
if (close ptr--zNULL) 
die ("can't find close()\n"); 
read ptr = dlsym (libc handle, "read"); 
if (read ptr-zNULL) 
die ("can't find read()\n"); 
inited - true; 


} 
static int opened fd=0; 


int open(const char *pathname, int flags) 
{ 
find original functions(); 
int fd-(*open ptr)(pathname, flags); 
if (strcmp(pathname, "/proc/uptime")--0) 


opened fd-fd; // that's our file! record its file 


ptor 
else 
opened fd-z0; 
return fd; 


H 


int close(int fd) 
t 


descri 


find original functions(); 
if (fd==opened fd) 

opened fd-0; // the file is not opened anymore 
return (*close ptr)(fd); 


J; 
ssize_t read(int fd, void *buf, size_t count) 


find_original_functions(); 
if (opened_fd!=0 && fd--opened fd) 


// that's our file! 
return snprintf (buf, count, "9d %d", OxT7fffffff, OxT7fff 
ffff)+1; 
J; 
// not our file, go to real read() function 
return (*read_ptr)(fd, buf, count); 


}; 
源 代码 
把 它 编 译 成 动态 链接 库 : 
gcc -fpic -shared -wall -o fool uptime.so fool uptime.c -ldl 
运行 uptime， 并 让 它 在 加 载 其 它 库 之 前 加 载 我 们 的 库 : 
LD_PRELOAD= pwd /fool uptime.so uptime 
可 以 看 到 : 


01:23:02 up 24855 days, 3:14, 3 users, load average: 0.00, 0.01, 
0.05 


如 果 LD_PRELOAD 环 境 变量 一 直 指 向 我 们 的 动态 链接 库 文件 和 名， 其它 程序 在 局 动 
的 时 候 也 会 加 载 我 们 的 动态 链接 库 。 


更 多 的 例子 请 看 : 


e Verysimpleinterceptionofthestremp()( YongHuang) 
e KevinPulo—FunwithLD PRELOAD.Alotofexamplesandideas. 
e File functions interception for compression/decompression files on fly (zlibc). 


第 六 十 八 章 
Windows Nt 


68.1 CRT(win32) 


程序 一 开始 就 从 main() 函 数 执行 的 ?事实 并 非 如 此 。 如 果 我 们 用 IDA 或 者 HIEW 打 开 
—A T MUT LE? 我 们 可 以 看 到 OEP t Point) 指向 了 其 它 代码 块 。 

这 些 代码 做 了 一 些 维护 和 准备 工作 之 后 再 把 控制 流 交 给 我 们 的 代码 。 这 就 是 所 谓 的 
startup-code 或 叫 CRT code(C RunTime) » 


main() 函 数 通 过 一 个 数组 接收 命令 行 传递 过 来 的 参数 ， 环 境 变量 与 此 类 似 。 通 常情 

况 下 ， 传 递 一 个 字符 串 到 程序 之 后 ，CRT code 会 用 空格 来 分 割 它们 。CRT code Fl 
样 也 准备 了 一 个 envp 来 存放 环境 变量 。 如 果 是 GUI 版 本 的 Win32 程 序 ， 入 口 函 数 需 
要 使 用 WinMain() 来 代替 main() 函 数 ， 它 也 有 自己 的 参数 。 


int CALLBACK WinMain( 
_In_ HINSTANCE hInstance, 
_In_ HINSTANCE hPrevInstance, 
_In_ LPSTR lpCmdLine, 
_In_ int nCmdShow 

); 


CRT code 同 样 会 准备 好 它 所 需要 的 所 有 参数 。 


此 外 ，main() 函 数 的 返回 值 是 它 的 退出 码 。CRT code 将 它 作为 ExitProcess() 的 
数 。 


通常 ， 每 个 编译 器 都 有 它 自 己 的 CRT code。 
下 面 是 MSVC 2008 特 有 的 CRT code ° 


tmainCRTStartup proc near 


var 24 - dword ptr -24h 

var 20 - dword ptr -20h 

var 1C = dword ptr -1Ch 

ms exc - CPPEH RECORD ptr -18h 
push 14h 


push offset stru 4092D0 
call | SEH prolog4 

mov eax, 5A4Dh 

cmp ds:400000h, ax 

jnz short loc 401096 


mov eax, ds:40003Ch 

cmp dword ptr [eax-400000h], 4550h 
jnz short loc 401096 

mov ecx, 10Bh 

cmp [eax+400018h], cx 

jnz short loc_401096 

cmp dword ptr [eax-400074h], OEh 
jbe short loc_401096 

XOr ecx, ecx 

cmp [eax+4000E8h], ecx 

setnz cl 

mov [ebp-var 1C], ecx 

jmp short loc 40109A 





loc 401096: ; CODE XREF: X tmainCRTStartup-*18 
; tmainCRTStartup+29 
and [ebp-*var 1C], 0 
loc_40109A: ; CODE XREF: ___tmainCRTStartup+50 
push 1 
call _ heap_init 
pop ecx 


test eax, eax 
jnz short loc_4010AE 





push 1Ch 
call _fast_error_exit 
pop ecx 
loc_4010AE: ; CODE XREF: tmainCRTStartup+60 


call _mtinit 
test eax, eax 
jnz short loc_4010BF 





push 10h 
call _fast_error_exit 
pop ecx 
loc_4010BF: ; CODE XREF: tmainCRTStartup+71 


call sub_401F2B 

and [ebp+ms_exc.disabled], © 
call _ ioinit 

test eax, eax 

jge short loc 4010D9 

push 1Bh 

call _ amsg exit 

pop ecx 


loc 4010D9: ; CODE XREF: | tmainCRTStartup-*8B 
call ds:GetCommandLineA 
mov dword 40B7F8, eax 
call | crtGetEnvironmentStringsA 
mov dword 40AC60, eax 
call  setargv 


test eax, eax 
jge short loc 4010FF 


push 8 
call _ amsg exit 
pop ecx 
loc_4010FF: ; CODE XREF: tmainCRTStartup+B1 


call __setenvp 

test eax, eax 

jge short loc_401110 
push 9 

call __amsg_exit 

pop ecx 


loc 401110: ; CODE XREF: ___tmainCRTStartup+C2 
push 1 
call _ cinit 
pop ecx 
test eax, eax 
jz short loc_401123 
push eax 
call _ amsg exit 
pop ecx 

loc 401123: ; CODE XREF: X tmainCRTStartup-*D6 
mov eax, envp 
mov dword 40AC80, eax 
push eax ; envp 
push argv ; argv 
push argc ; argc 
call main 
add esp, OCh 
mov [ebp-var 20], eax 
cmp [ebp*var 1C], 0 
jnz short $LN28 
push eax ; uExitCode 
call $LN32 


$LN28: ; CODE XREF: tmainCRTStartup+105 
call _ cexit 
jmp short loc 401186 


$LN27: ; DATA XREF: .rdata:stru 4092D0 

mov eax, [ebp-«ms exc.exc ptr] ; Exception filter © for funct 
ion 401044 

mov ecx, [eax] 

mov ecx, [ecx] 

mov [ebp-var 24], ecx 

push eax 

push ecx 

call _ XcptFilter 

pop ecx 

pop ecx 


$LN24: 
retn 


$LN14: ; DATA XREF: .rdata:stru_4092D0 


mov esp, [ebpt+ms_exc.old_esp] ; Exception handler © for func 
tion 401044 


mov eax, [ebptvar_24] 
mov [ebp-var 20], eax 
cmp [ebp*var 1C], 0 
jnz short $LN29 

push eax ; int 

call — exit 


$LN29: ; CODE XREF: tmainCRTStartup+135 
call _c_exit 


loc 401186: ; CODE XREF: _ tmainCRTStartup+112 
mov [ebp+ms_exc.disabled], OFFFFFFFEh 
mov eax, [ebp-var. 20] 
call — SEH epilog4 
retn 


在 这 里 我 们 看 到 代码 调用 了 GetCommandLineA()，setargv() 和 setenvp() 去 填充 
argc，argv，envp 全 局 变量 。 


最 后 ， 使 用 这 些 参数 去 调用 main() 有 函数 。 
有 些 函 数 调用 了 与 自身 类 似 的 函数 ， 如 heap_init() ， ioinit()。 
如 果 你 尝试 在 CRT code 代 码 中 使 用 malloc()， 它 将 异常 退出 下 面 的 错误 : 


runtime error R6030 
- CRT not initialized 


在 C++ 中 ， 全 局 对 象 的 初始 化 也 同样 发 生 在 main() 也 数 执行 之 前 的 CRT : 51.4.1 ° 
main() 有 函数 的 返回 值 传 给 cexit() 或 $SLN32， 后 者 调用 doexit()。 
能 否 摆 脱 CRT? 这 个 当然 ， 如 果 你 你 在 做 什么 的 话 。 
MSVC 的 链接 器 可 以 通过 /ENTRY 选 项 设置 入 口 函 数 。 
#include <windows.h> 


int main() 


{ 


MessageBox (NULL, "hello, world", “caption", MB_OK); 
}; 


让 我 们 用 MSVC 2008 来 编译 它 。 


cl no crt.c user32.lib /link /entry:main 


我 们 可 以 获得 一 个 大 小 为 2560 字 节 的 runnable.exe。 它 有 一 个 PE 头 ， 调 用 
MessageBox 的 指令 ， 数 据 段 中 有 两 串 字 符 串 ， 而 MessageBox 函 数 导 入 自 
user32.DLL 。 


这 个 程序 能 够 正常 运行 ， 但 你 不 能 在 main() 函 数 里 面 使 用 WinMain() 的 四 个 参数 。 准 
确 点 来 说 你 能 ， 但 是 这 些 参 数 并 没有 在 执行 的 时 候 准备 好 。 


cl no crt.c user32.lib /link /entry:main /align:16 


它 会 报 一 个 链接 警告 : 


LINK : warning LNK4108: /ALIGN specified without /DRIVER; image 
may not run 


我 们 可 以 获得 一 个 720 字 节 的 exe 文 件 。 它 可 以 在 Windows 7 常 运行， 但 是 
没 办 法 在 x64 上 运行 ( 当 你 运行 它 的 时 候 会 将 先是 一 条 错误 信息 ) 。 更 多 的 优化 可 
能 可 以 提高 执行 效率 ， 但 如 你 所 见 ， 很 快 就 出 现 了 兼容 问题 。 


68.2 Win32 PE 


PE 是 Windows 下 的 可 执行 文件 格式 。 


.exe，.dll，.sys 文 件 它 们 之 间 的 区 别 是 ，.exe 和 .sys 文 件 通 常 没有 导出 表 ， 只 有 导 
入 表 。 


DLL 文件 和 其 它 PE 文件 类 似 ， 有 一 个 入 口 点 (OEP) (DIMain)&X) ， 但 一 般 情 
FRY DLL AK 个 函数 。 


.SYS 通常 是 一 个 设备 驱动 程序 。 
作为 驱动 程序 ，Windows 需 要 检验 它 的 PE 文件 并 保证 它 是 正确 的 。 


从 Windows Vista 开 始 ， 一 个 驱动 程序 文件 必须 拥有 数字 签名 ， 否 则 它 会 被 拒绝 加 
Ho 


每 个 PE 文件 都 由 一 段 打印 “This program cannot be run in DOS mode.” 4) DOS 42 
块 开始 。 如 果 你 的 程序 运行 于 DOS 或 者 Windows 3.1 (这 些 OS 并 不 识别 PE 文件 格 
式 ) ， 这 个 DOS 程 序 块 将 被 执行 打印 。 


68.2.1 i$ 


e Module (模块 ) -一 个 exe/dll 文 件 。 

e Process (进程 ) - 加 载 到 内 存 中 并 正在 运行 的 程序 ， 通 常 由 一 个 exe 文 件 和 多 
个 dl 文件 组 成 。 

e Process memory (进程 内 存 ) - 进程 所 在 容 所 。 每 个 进程 都 拥有 自己 的 内 存 。 
通常 是 加 载 的 模块 ， 栈 内 存 ， 堆 内 存 等 等 。 

e VA (虚拟 地 址 ) - 可 以 被 程序 所 使 用 的 地 址 。 

e Base address (基地 址 ) -模块 被 加 载 到 进程 内 存 后 的 地 址 。 

e RVA (相对 虚拟 地 址 ) - VA 地 址 减 去 基地 址 后 的 地 址 。 PE 文件 中 有 许多 地 址 
使 用 RVA 地 址 。 

e IAT (导入 地 址 表 ) -一 个 导入 符号 地 址 的 数组 。 通 常 由 一 个 
IMAGE_DIRECTORY_ENTRY_IAT 数 据 目 录 指 向 |AT。 值 得 注意 的 是 ，IDA 可 
会 给 I|AT 分 配 一 个 名 为 .jdata 的 pseudo-section， 即 使 |AT 是 其 它 section 的 一 部 
D 


e INT (导入 名 称 表 ) -一 个 导入 符号 名 的 数组 。 


68.2.2 Base address 
问题 是 ， 模 块 (DLL) 的 开发 者 不 可 能 事先 知道 哪些 地 址 分 配给 哪些 模块 使 用 的 。 


这 就 是 为 什么 两 个 具有 相同 基地 址 的 DLL 需 要 一 个 加 载 到 这 个 基地 址 而 另外 一 个 加 
载 到 进程 的 其 它 空闲 内 存 处 并 调整 第 二 个 DLL 的 虚拟 地 址 。 


通常 情况 下 ，MSVC 链 接 器 生成 .exe 文 件 的 基地 址 是 0x400000， 并 把 代码 段 安排 在 
0x401000。 这 意味 着 该 代码 段 的 RVA 地 址 是 0x1000。DLL 的 基地 址 通常 被 MSVC 链 
接 器 安排 在 0x10000000。 


还 有 一 种 情况 下 加 载 模块 时 会 导致 基地 址 浮动 。 
这 就 是 ASLR(Address Space Layout Randomization (地 址 空间 布局 随机 化 ) )。 
一 个 shellcode 想 要 执行 必须 调用 到 系统 的 函数 。 


在 老 的 操作 系统 当中 (如果 是 WindowsNT， 则 在 Windows Vista 之 前 ) > A483 
DLL (4ekernel32.dll > user32.dll) 总 是 加 载 到 已 知 的 地 址 。 如 果 我 们 还 记得 的 话 ， 
它们 的 版 本 是 很 少 有 变动 的 。 因 为 函数 的 地 址 是 固定 的 ，shellcode 可 以 直接 调用 它 
们 。 

为 了 避免 这 种 情况 ，ASLR 每 次 在 加 载 模块 的 时 候 都 会 随机 安排 它们 的 基地 址 。 
支持 ASLR 的 程序 在 PE 头 中 会 设置 

IMAGE DLL CHARACTERISTICS DYNAMIC BASEJs 7 表明 其 支持 ASLR 。 


68.2.3 Subsystem 
还 有 一 个 subsystem 字 段 , 通常 是 : 


e native (sys 了 驱动 程序 ) 
e console (控制 台 程 序 ) 
e GUI (图 形 程序 ) 


68.2.4 OS version 


PE 文件 还 规定 了 可 以 加 载 它 的 最 小 Windows 版 本 号 。 有 一 个 表 保 存 了 PE 的 版 本 号 
和 相应 的 Windows 开 发 代号 。 


举 个 例子 ，MSVC 2005 编 译 的 .exe 文 件 运行 在 Windows NT4 (version 4.00) 。 但 
MSVC 2008 不 是 (生成 文件 的 版 本 是 5.00， 至 少 运 行 于 Windows 2000) 。 


MSVC 2012 生 成 的 .exe 文 件 默认 是 6.00 版 本 ， 最 低 平台 要 求 至 少 是 Windows 
Vista。 但 可 以 通过 更 改编 译 选 项 ， 强 制 编译 器 支持 Windows XP ° 


68.2.5 Sections 
一 部 分 section 似 乎 存在 于 所 有 可 执行 文件 格式 里 面 。 
下 面 的 标志 位 用 于 区 分 代码 和 常量 数据 : 


e。 当 IMAGE SCN CNT CODEXIMAGE SCN MEM _ EXECUTE 被 置 位 ， 表示 
该 section 是 一 个 可 执行 代码 。 

e 在 数据 section 中 ，IMAGE SCN ONT INITIALIZED DATA * 

IMAGE SCN MEM READAeIMAGE SCN MEM WRITE? & 4 。 

e 在 未 初始 化 section 和 空 section 中 ， 
IMAGE_SCN_CNT_UNINITIALIZED_DATA > IMAGE SCN MEM READ/e 
IMAGE. SCN MEM WRITE 被 置 位 。 

。 在 常量 数据 section ( 写 保 护 ) 中 ,IMAGE _SCN_CNT_INITIALIZED_DATA 和 
IMAGE_SCN_MEM READ 被 置 位 ， 但 不 可 以 置 位 
IMAGE SCN. MEM WRITE。 当 一 个 进程 尝试 在 这 个 section 写 数据 时 ， 进 程 
POE ELE 


每 个 section 在 PE 文件 可 能 有 一 个 名 字 ， 但 是 它 并 不 是 很 重要 。 通 常 (但 不 总 是 ) 
代码 section 的 名 字 是 .text， 数 据 section 是 .data， 常 量 数据 section 是 .rdata(readable 
data)。 其 它 流行 的 名 字 还 有 : 


e .idata 一 imports section (导入 section) 。IDA 可 能 会 创建 一 个 类 似 (68.2.1) 的 
pseudo-section ° 

.edata—exports section (导出 section) ° 

pdata—# Windows NT (MIPS > IA64 > x64) E&A THAR BIE © 
.reloc—relocs section ( 重 定位 section ) 

.bss 一 uninitialized data (未 初始 化 数据 (BSS) ) 

.tls—thread local storage (线程 局 部 存储 (TLS) ) 

.rsrc—resources (资源 ) 

.CRT 一 可 能 存在 十 老 的 MSVC 版 本 编译 出 来 的 二 进 制 文 件 里 面 。 


PE 文件 的 打包 器 /加 密 器 经 常 打 乱 Section 名 字 或 者 把 名 字 替 换 为 自己 的 。 
MSVC 人 允许 你 任意 命名 section 。 


一 些 编译 器 和 链接 器 可 以 添加 一 个 用 于 调试 符号 和 其 他 调试 信息 的 section( 例 如 
MinGW)。 但 不 包括 MSVC 现 在 的 版 本 (提供 单独 的 PDB 文件 用 于 这 个 目的 )。 


这 是 PE 文件 的 section 结 构 体 定义 : 


typedef struct IMAGE SECTION HEADER { 
BYTE Name[IMAGE SIZEOF SHORT NAME]; 
union { 
DWORD PhysicalAddress; 
DWORD VirtualSize; 
} Misc; 
DWORD VirtualAddress; 
DWORD SizeOfRawData; 
DWORD PointerToRawData; 
DWORD PointerToRelocations; 
DWORD PointerToLinenumbers; 
WORD NumberOfRelocations; 
WORD NumberOfLinenumbers; 
DWORD Characteristics; 
) IMAGE SECTION HEADER, *PIMAGE SECTION HEADER; 


一 些 相 关 的 字段 的 解释 : PointerToRawData 是 在 磁盘 文件 中 的 偏 移 ， 
VirtualAddress 在 Hiew 中 是 装载 到 内 存 中 的 RVA © 


68.2.6 Relocations (relocs) 


也 称 为 FIXUP-s (在 Hiew) 。 
他 们 也 存在 于 几乎 所 有 的 可 执行 文件 格式 。 


显然 ， 模 块 可 以 被 加 载 到 各 种 基地 地 址 ， 但 如 何 处 理 全 局 变量 ?一 个 解决 方案 是 使 
用 位 置 无 关 代 码 (67.1 章 ) ， 但 它 并 不 是 总 是 有 用 的 。 


这 就 是 重 定位 表 存 在 的 理由 : 当 模 块 加 载 到 不 同 的 基地 址 的 时 候 ， 它 们 的 入 口 地 址 
都 需要 修正 。 


举 个 例子 ， 有 一 个 全 局 变量 的 地 址 是 0x410000， 它 是 这 样 访问 的 : 


A1 00 00 41 00 mov eax, [000410000] 


模块 的 基地 址 是 0x400000， 全 局 变量 的 RVA 地 址 是 0x10000。 


如 果 模 块 加 载 到 0x500000 这 个 基地 址 ， 那 么 全 局 变量 实际 的 地 址 必须 是 
0x510000 ° 


我 们 可 以 看 到 ， 在 0XA1 字 节 之 后 ， 变 量 的 地 址 编码 到 MOV 指 令 中 的 。 
这 就 是 为 什么 0xA1 字 节 之 后 的 4 个 字 节 地 址 写 在 了 重 定位 表 。 


如 果 模 块 加 载 到 不 同 的 基地 址 ， 操 作 系 载 器 枚 举重 定位 表 中 所 有 地 址 ， 查 找 每 
个 32 位 的 地 址 ， 减 去 原来 的 基地 址 (我 们 这 得 到 了 RVA)， 并 添加 新 的 基地 址 。 


如 果 模 块 加 载 到 原来 的 基地 址 ， 那 么 不 做 任何 事情 
所 有 的 全 局 变量 都 可 以 这 样 处 理 。 


重 定位 表 可 能 有 各 种 类 型 ， 但 是 在 X86 处 理 器 的 Windows 中 ， 
IMAGE REL BASED HIGHLOW 。 


顺便 说 一 下 ， 重 定位 表 在 Hiew 是 隐藏 的 。 相 关 例 子 请 查看 (Figure 7.12) 。 
OllyDbg 会 用 下 划 线 标识 哪些 使 用 了 重 定位 表 。 相 关 例 子 请 查看 (Figure 13.11) ° 


68.2.7 Exports and imports 


众所周知 ， 任 何 可 执行 文件 都 必须 使 用 操作 系统 提供 的 服务 和 其 它 一 些 动 态 链接 
库 o 

可 以 说 ， 一 个 模块 (通常 是 DLL ) 的 函数 通常 都 是 导出 提供 给 其 它 模 块 使 用 (exe 
文件 或 其 它 DLL) 。 

这 种 情况 下 ， 每 个 DLL 都 有 一 个 导出 (exports) 表 ， 由 模块 的 函数 加 它们 的 地 址 组 
成 o 

每 个 exe 或 dl 文件 也 有 一 个 导入 (imports) XA» X. da EA T & FP JUPE EROS 
的 DLL 文件 名 。 


在 加 载 main.exe 文 件 之 后 ， 操 作 系 统 加 载 器 开始 处 理 导 入 表 : 它 加 载 所 需 的 DLL 文 
件 ， 接 着 在 DLL 的 导入 表 查 找 对 应 函数 名 字 的 地 址 ， 然 后 把 它们 的 地 址 写 到 
main.exe 模 块 的 IAT ( (Import Address Table) 导入 表 ) » 


我 们 可 以 看 到 ， 加 载 器 必须 大 量 比较 函数 名 ， 但 字符 串 比 较 效 率 并 不 是 很 高 。 所 以 
有 一 个 支持 “ordinals?* 或 “hints” 的 东西 ， 表 示 函 数 存 储 在 表 中 的 序号 ， 用 于 代替 它们 
的 函数 名 。 


这 使 得 它们 可 以 更 快 地 加 载 DLL。Ordinals 在 导出 表 中 永远 都 存在 。 


举 个 例子 : 一 个 使 用 MFC 库 的 程序 都 是 通过 ordinals 加 载 mfc*.dll， 在 这 种 程序 中 ， 
INT (Import Name Table) 是 不 存在 MFC 函 数 名 字 的 。 


使 用 IDA 加 载 这 类 程序 的 时 候 ， 如 果 告 诉 它 mfc*.dll 文 件 路 径 ， 则 可 以 看 到 有 函数 名 。 
如 果 不 告 诉 IDA 这 些 DLL 路 径 ， 它 会 显示 诸如 mfc80_123 而 不 是 函数 名 。 


Imports section 


编译 器 通常 会 给 导入 表 及 其 相关 内 容 分 配 一 个 单独 的 section (名 字 类 似 .idata) > 
但 这 不 是 一 个 强制 规定 。 


因为 术语 混乱 ， 导 入 表 是 一 个 比较 令 人 困惑 的 地 方 。 让 我 们 尝试 一 下 整理 这 些 信 
D: 


qui 


Windows-NT 


.. IMAGE. IMPORT DESCRIPTOR array 


OriginafF est Thunk 
TimeDateStamp = 0 
ForwarderChain = 0 


#1 (IMAGE_DIRECTORY_ENTRY_IMPORT) 
#5 (IMAGE_DIRECTORY_ENTRY_BASERELOC) 


a CrealeFileA: FF 25 xx xx xx xx jmp __imp_CreateFileA 
|__| GetFieSize: FF 25 xx xx xx xx jmp — imp ( 


E Uu S FF 25 xx xx xx xx jmp — imp 
| |writeFie — FF 25 xx xxxxxx jmp imp WrileFile 





Figure 68.1: A scheme that unites all PE-file structures related to imports 


里 面 主要 的 结构 是 IMAGE IMPORT_DESCRIPTOR 数 组 。 每 个 被 加 载 进来 的 DLL 
占用 一 个 元 素 。 


每 个 元 素 包 含 一 个 文本 字符 串 (DLL 名 字 ) 的 RVA 地 址 。 


OriginalFirstThink 是 INT 表 的 RVA 地 址 。 这 是 一 个 RVA 地 址 的 数组 ， 里 面 每 个 成 员 都 
指向 一 个 函数 名 的 文本 字符 囊 。 每 个 函数 名 的 字符 串 之 前 是 一 个 16 位 的 ("hint")- 
"ordinal" 整 数 。 

加 载 的 时 候 ， 如 果 可 以 通过 ordinal 找 到 函数， 那么 就 不 需要 使 用 字符 串 比 较 来 查找 
函数 。 数 组 的 最 后 一 个 元 素 是 0。 还 有 一 个 FirstThunk 字 段 指向 |IAT 表 ， 这 个 地 方 是 
加 载 器 重 写 需要 重新 解析 函数 的 地 址 的 RVA 地 址 。 


需要 加 载 器 重 写 地 址 的 函数 在 IDA 中 加 了 诸如 这 种 标记 : — imp CreateFileA ° 
加 载 器 至 少 有 两 种 方法 重 写 地 址 : 


e 代码 会 有 诸如 调用 _imp_CreateFileA 的 指令 ， 因 为 导入 函数 的 地 址 在 某 种 意 
义 上 是 一 个 全 局 变量 ， 当 模块 加 载 到 不 同 的 基地 址 时 ，call 指 令 的 地 址 被 添加 
到 重 定位 表 中 。 但是， 显然 这 种 方法 可 能 会 扩大 重 定位 表 。 因 为 有 可 能 从 这 个 
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模块 大 量 调用 寻 入 的 函数 。 而 有 全 ， 重 定位 表 太 大 的 话 会 减 慢 模块 的 加 载 速度 。 


e 每 个 导入 函数 给 它 分 配 一 条 jmp 指 令 ， 使 用 jmp 指 令 加 上 重 定位 表 的 地 址 跳 转 到 
导入 函数 。 这 些 入 口 点 被 称 之 为 thunks”"， 所 有 调用 导入 函数 仅 需 要 调用 相对 
应 的 “thunk”"， 这 种 情况 下 不 需要 额外 的 重 定 位 操作 ， 因 为 这 些 CALL 都 使 用 相 
对 地 址 ， 不 需要 额外 的 调整 操作 。 


这 两 种 方法 可 以 组 合 使 用 。 可 能 的 话 ， 链 接 器 给 那些 被 调用 太 多 次 的 函数 创建 一 
个 thunk”， 然 而 默认 情况 下 不 是 这 样 。 


顺便 说 一 下 ，FirstThunk 指 向 的 函数 地 址 数组 不 必要 位 于 IAT section。 举 个 例子 ， 

我 曾经 写 的 PE_add import 工 具 可 以 给 .exe 文 件 添 加 一 个 导入 函数 。 在 早 些 时 候 ， 

这 个 工具 可 以 让 你 的 函数 调用 其 它 DLL 文件 的 函数 。 我 的 工具 添加 了 类 似 下 面 的 代 
码 : 


MOV EAX, [yourdll.dll!function] 
JMP EAX 


FirstThunk 指 向 第 一 条 指令 ， 换 名 话说 ， 当 加 载 yourdll.dll 的 时 候 ， 加 载 器 在 代码 中 
Z A function $ Zt 49 3E 58 X AE © 


还 值得 注意 的 是 代码 段 通常 是 写 保 护 的 ， 因 此 我 的 工具 在 code section 添 加 了 一 个 
IMAGE SCN MEM WRITEZs 志 人 位。 否则 ， 程 序 在 加 载 的 时 候 会 爆 出 错误 码 为 
5 (访问 失败 ) 的 异常 错误 。 


有 人 可 能 会 问 : 如 果 我 提供 一 个 程序 与 一 组 不 变 的 DLL 文件 ， 是 有 可 能 加 快 加 载 过 
程 ? 


是 的 ， 它 可 以 提前 把 函数 的 地 址 写 入 到 导入 表 的 FirstThunk 数 组 。 
IMAGE_IMPORT_DESCRIPTOR 结 构 有 一 个 Timestamp 字 段 。 如 果 这 个 变量 存 
在 ， 则 加 载 器 会 比较 这 个 变量 和 DLL 文件 日 期 时 间 。 如 果 它 们 相等 ， 那 么 加 载 器 不 
做 任何 事情 ， 所 以 加 载 过 程 可 以 很 快 完成 。 这 就 是 所 谓 的 “old-style binding” ° X T 
加 快 程序 的 加 载 ，Matt Pietrek. "An In-Depth Look into the Win32 Portable 
Executable File Format"， 建 议 你 的 程序 安装 在 最 终 用 户 的 计算 机 后 不 久 做 捆绑 。 


PE 文件 的 打包 器 /加 密 器 也 可 以 压缩 /加 密 导 入 表 。 在 这 种 情况 下 ，Windows 的 加 载 
器 当然 不 会 加 载 所 有 需要 的 DLL。 因 此 打包 器 /加 密 器 只 能 通过 LoadLibrary() 和 
GetProcAddress() 来 获取 所 需 函 数 。 

安装 在 Windows 系 统 中 的 标准 DLL 文件 ，IAT 往 往 是 位 于 PE 文件 的 开头 。 据 说 ， 这 
是 一 种 优化 。 加 载 时 .exe 文 件 不 是 全 部 加 载 到 内 存 ， 它 是 "映射 "和 加 载 部 分 需要 被 
访问 到 的 内 存 。 可 能 微软 的 开发 者 认为 这 样 加 载 比较 快 。 


68.2.8 Resources 
资源 在 PE 文件 只 是 一 组 图 标 ， 图 片 ， 文 本 字符 串 ， 对 话 框 描述 。 因 为 把 它们 从 主 代 


码 分 离 了 出 来 ， 所 以 多 国语 言 程序 很 容易 实现 ， 只 需要 根据 操作 系统 设置 的 语言 
选择 文本 或 图 片 的 语言 。 


作为 一 个 副作用 ， 通 过 使 用 诸如 ResHack 的 编辑 器 ， 即 使 在 没有 专业 知识 的 情况 
下 ， 也 可 以 轻松 地 编辑 和 保存 可 执行 文件 的 资源 。 


68.2.9 .NET 


.NET 的 程序 并 不 编译 成 机 器 码 ， 而 是 编译 成 字 节 码 。 严 格 地 说 ， 是 在 .exe 文 件 里 面 
使 用 字 节 码 代 替 X86 机 器 。 然 而 ， 进 入 入 口 点 (OEP) 还 是 需要 一 小 段 x86 机 器 码 : 


jmp mscoree.dll! CorExeMain 


.NET 的 加 载 器 位 于 mscoree.dll， 由 它 来 处 理 PE 文 件 。 它 存在 于 之 前 的 所 有 
Windows XP 操作 系统 。 从 XP 启动 的 时 候 ，OS 的 加 载 器 能 够 探测 .NET 文 件 并 通过 
JMP 指 令 执 行 。 


68.2.10 TLS 


这 个 section 包 含 了 初始 化 TLS 的 数据 (6535) (如 果 需 要 的 话 ) 。 当 一 个 新 线程 启 
动 的 时 候 ， 它 的 TLS 数 据 使 用 这 个 section 的 数据 进行 初始 化 。 


除 此 之 外 ，PE 文 件 规范 还 提供 了 TLS 的 初始 化 ! 当 section，TLS callbacks 存 在 ， 
它们 会 在 传递 控制 权 到 主 入 口 点 (OEP) 之 前 被 调用 。 这 个 功能 广泛 用 于 PE 文件 
的 打包 和 加 密 。 


68.2.11 工具 


objdump - cygwin 版 本 可 以 反 汇 编 PE 文 件 

Hiew - (参考 73 章 ) 

pefile - 一 个 处 理 PE 文 件 的 Python 库 

ResHack AKA Resource Hacker 一 资源 编辑 器 

PE add import 一 添加 符号 到 导入 表 的 简易 工具 

PE patcher 一 修补 PE 文件 的 简易 工具 

PE search str refs 一 查找 函数 在 PE 文件 里 对 应 的 字符 串 的 简易 工具 


68.2.12 扩展 阅读 


Daniel Pistelli — The .NET File Format 


68.3 Windows SEH 


68.3.1 i: & 1175 & T MSVC 


4& Windows > SEH (Structured Exception Handling (结构 化 异常 处 理 ) ) 是 异常 
处 理 的 一 种 机 制 。 然 而 ， 它 是 语言 无 关 的 ， 不 管 是 Ce 或 者 其 它 OOP 语 言 。 我 们 
可 以 看 到 SEH (从 C++ 和 MSVC 扩 展 ) 是 独立 实现 的 。 


每 个 运行 的 进程 都 有 一 个 SEH 处 理 链 ，TIB 有 它 最 后 的 处 理 程序 的 地 址 。 当 异常 发 
生 时 ( 除 零 ， 错 误 的 地 址 访问 ， 用 户 通 过 调用 RaiseException() 有 函数 引发 异常 )， 操 作 
系统 在 TIB 找 到 最 后 的 处 理 程序 并 调用 它 ， 获 取 措 常 时 CPU 的 状态 信息 (如 寄存 器 
的 值 等 等 ) 。 处 理 程序 当前 的 异常 能 否 修 复 ， 如 果 能 ， 则 修复 该 异常 。 如 果 不 能 ， 
它 通知 操作 系统 无 法 处 理 它 并 由 操作 系统 调用 异常 处 理 链 中 的 下 一 个 处 理 程序 ,直到 
处 理 程序 能 够 处 理 的 异常 被 发 现 。 


在 异常 处 理 链 的 结尾 处 有 一 个 标准 的 处 理 程序 ， 它 显示 一 个 对 话 框 用 于 通知 用 户 进 
程 前 渍 ， 然 后 把 一 些 崩 溃 时 CPU 的 状态 信息 ， 收 集 起 来 并 将 其 发 送 给 微软 开发 商 。 


crash.exe 


crash.exe has encountered a problem and needs to 
close. We are sorry for the inconvenience. 





If you were in the middle of something, the information you were working on 
might be lost. 


Please tell Microsoft about this problem. 


We have created an error report that you can send to us. We will treat 
this report as confidential and anonymous. 





Send Error Report | Don't Send | 





Figure 68.2: Windows XP 
Error Report Contents > 


The following information about your process will be reported: 















Exception Information à] 
Code: Oxcooo000s Flags: Oxo0000000 
Record: OxO000000000000000 Address: 0x000000000040100e 


System Information 

indows NT 5.1 Build: 2600 

CPU Vendor Code: 756E6547 - 49656E69 - 6C65746E 
CPU Version: O000206A7 CPU Feature Code: OFABFBFF 
CPU AMD Feature Code: OODLESZ4 


Image Base: O0xO00400000 Image Size: Ox00000000 
Checksum: Ox00000000 Time Stamp: OxSZd1973c 
ersion Information 了 | 


The following files will be included in this error report: 
CADOCUME^1*S&DMINI71S5LOCALS^1*STemp*b15 appcompat.t«t 





Figure 68.3: Windows XP 


Ee -上 品 >| 


B crash.exe has stopped working 
Windows can check online for a solution to the problem. 
*» Check online for a solution and close the program 
= Close the program 


-+ Debug the program 


Problem Event Name: APPCRASH 
Application Name: crash.exe 
Application Version: 0.0.0.0 


Application Timestamp: 52d1973c 
Fault Module Name: crash.exe 
Fault Module Version: 0.0.0.0 

Fault Module Timestamp: 52d1973c 
Fycention Code: 0000005 





Figure 68.4: Windows 7 


crash.exe has stopped working 


A problem caused the program to stop working correctly. 
Windows will close the program and notify you if a solution is 
available. 


Close program 





Figure 68.5: Windows 8.1 
早 些 时 候 ， 这 个 处 理 程序 被 称 为 DrWatson。 


顺便 说 一 句 ， 有些 开发 人 员 会 在 自己 的 处 理 程序 发 送 程序 崩溃 的 信息 。 通 过 
SetUnhandledExceptionFilter() & Z& 12 At LAL > de IR ATE AAR ETE 
它 方 式 处 理 异 常 ， 则 调用 它 。 一 个 例子 是 Oracle RDBMS， 它 保存 了 CPU 所 有 可 能 
有 用 的 信息 和 内 存 状态 的 巨大 转 储 文件 。 


让 我 们 写 一 个 自己 的 primitive exception handler : 


Zinclude <windows.h> 
include <stdio.h> 


DWORD new value-1234; 


EXCEPTION DISPOSITION _ cdecl except handler( 
struct EXCEPTION RECORD *ExceptionRecord, 


void * EstablisherFrame, 
struct CONTEXT *ContextRecord, 
void * DispatcherContext ) 


unsigned i; 


printf ("%s\n", _ FUNCTION  ); 
printf ("ExceptionRecord->ExceptionCode=0x%p\n", ExceptionRe 
cord->ExceptionCode) ; 
printf ("ExceptionRecord->ExceptionFlags=0x%p\n", ExceptionR 
ecord->ExceptionFlags) ; 
printf ("ExceptionRecord->ExceptionAddress=0x%p\n", Exceptio 
nRecord->ExceptionAddress) ; 
if (ExceptionRecord->ExceptionCode==0xE1223344 ) 
{ 
printf ("That's for us\n"); 
// yes, we "handled" the exception 
return ExceptionContinueExecution; 


else if (ExceptionRecord--ExceptionCode--EXCEPTION ACCESS VI 


OLATION) 
{ 
printf ("ContextRecord->Eax=0x%08X\n", ContextRecord->Ea 
X); 
// will it be possible to 'fix' it? 
printf ("Trying to fix wrong pointer address\n"); 
ContextRecord-»-Eax-(DWORD)&new value; 
// yes, we "handled" the exception 
return ExceptionContinueExecution; 
j 
else 
{ 
printf ("We do not handle this\n"); 
// someone else's problem 
return ExceptionContinueSearch; 
H 
j 
int main() 
{ 


DWORD handler = (DWORD)except_handler; // take a pointer to 
our handler 
// install exception handler 
. asm 
{ // make EXCEPTION REGISTRATION record: 
push handler // address of handler function 
push FS:[0] // address of previous handler 
mov FS:[0],ESP // add new EXECEPTION REGISTRATION 
J 
RaiseException (0xE1223344, 0, 0, NULL); 
// now do something very bad 
int* ptr=NULL; 
int val-0; 
val-*ptr; 


printf ("val=%d\n", val); 
// deinstall exception handler 
. asm 
{ // remove our EXECEPTION REGISTRATION record 
mov eax,[ESP] // get pointer to previous record 
mov FS:[0], EAX // install previous record 
add esp, 8 // clean our EXECEPTION REGISTRATION off stac 


j 


return 0; 


FS 段 寄存 器 : 在 Win32 指 向 TIB。 在 TIB 的 第 一 个 元 素 是 指向 异常 处 理 指针 链 中 的 最 
后 一 个 处 理 程 序 ， 我 们 将 自己 的 异常 处 理 程序 的 地 址 保存 在 这 里 。 异 常 处 理 链 的 结 
点 结构 体 名 字 是 EXCEPTION_REGISTRATION， 这 是 一 个 单 链表 实现 的 栈 容 器 。 


Listing 68.1: MSVC/VC/crt/src/exsup.inc 


NX. EXCEPTIONN REGISTRATION struc 
prev dd ? 
handler dd ? 
\_EXCEPTION\_REGISTRATION ends 


每 个 结 点 的 handler 字 段 指向 一 个 异常 处 理 程序 ， 每 个 结 点 的 prev 字 段 指 向 在 栈 中 的 
上 一 个 结 点 。 最 后 一 个 结 点 的 prev 指 向 0xFFFFFFFF(-1) 。 















Stack 
PrevsOxFFFFFFFF 
ndie 
ndie 
ngle 






Handi 


handler function 






我 们 的 处 理 程序 安装 后 ， 我 们 调用 RaiseException()。 这 是 一 个 用 户 异 常 。 处 理 程 
序 检查 异常 代码 ， 如 果 异 常 代 码 是 0XE1223344， 它 返回 
ExceptionContinueExecution。 这 意味 着 处 理 程序 修复 了 CPU 的 状态 (通常 是 
EIP/ESP 寄 存 器 ) ， 操 作 系 统 可 以 恢复 运行 。 如 果 你 稍微 修改 一 下 代码 ， 处 理 程序 
返回 ExceptionContinueSearch， 那 么 操作 系统 将 调用 下 一 个 处 理 程序 ， 如 果 没 有 
找到 处 理 程 序 (因为 没 人 捕获 该 异常 )， 你 会 看 到 标准 的 Windows 进 程 崩 演 对 话 
框 。 


系统 异常 和 用 户 异 常 之 间 的 区 别 是 什么 ? 这 里 有 系统 的 : 





handler function 





as defined in WinBase.h 
EXCEPTION ACCESS VIOLATION 
EXCEPTION DATATYPE MISALIGNMENT 
EXCEPTION BREAKPOINT 
EXCEPTION SINGLE STEP 
EXCEPTION ARRAY BOUNDS EXCEEDED 
EXCEPTION FLT DENORMAL OPERAND 
EXCEPTION FLT DIVIDE BY ZERO 
EXCEPTION FLT INEXACT RESULT 
EXCEPTION FLT INVALID OPERATION 
EXCEPTION FLT OVERFLOW 
EXCEPTION FLT STACK CHECK 
EXCEPTION FLT UNDERFLOW 
EXCEPTION INT DIVIDE BY ZERO 
EXCEPTION INT OVERFLOW 
EXCEPTION PRIV INSTRUCTION 
EXCEPTION IN PAGE ERROR 
EXCEPTION ILLEGAL INSTRUCTION 


EXCEPTION NONCONTINUABLE EXCEPTION 


EXCEPTION. STACK OVERFLOW 
EXCEPTION INVALID DISPOSITION 
EXCEPTION GUARD PAGE 
EXCEPTION INVALID HANDLE 
EXCEPTION POSSIBLE DEADLOCK 
CONTROL C EXIT 


这 些 异 常 码 的 定义 规则 是 : 


31 29 28 
S U 0 


27~16 


Facility code 


as defined in ntstatus 
STATUS ACCESS VIOLA 
STATUS DATATYPE MISZ 
STATUS BREAKPOINT 
STATUS SINGLE STEP 
STATUS ARRAY BOUND: 
STATUS FLOAT DENOR^ 
STATUS FLOAT DIVIDE | 
STATUS FLOAT INEXACI 
STATUS FLOAT INVALID. 
STATUS FLOAT OVERFL 
STATUS FLOAT STACK ( 
STATUS FLOAT UNDERF 
STATUS INTEGER DIVIDI! 
STATUS INTEGER OVER 
STATUS PRIVILEGED IN: 
STATUS IN PAGE ERRO 
STATUS ILLEGAL INSTRI 
STATUS NONCONTINUAE 
STATUS STACK OVERFL 
STATUS INVALID DISPO: 
STATUS GUARD PAGE \ 
STATUS INVALID HANDL 
STATUS POSSIBLE DEAI 
STATUS CONTROL C E? 


15-0 


Error code 


S 是 一 个 基本 代码 : 11 一 error; 10 一 warning; 01 一 informational; 00 一 success : UŽ 
示 是 否 是 用 户 代码 。 

这 就 是 为 什么 我 选择 了 0xE1223344，0xE(1110b) 意 味 着 1) user exception (用 户 
异常 ) ;2) error (错误 ) 。 


当 我 们 尝试 读 取 地 址 为 0 的 内 存 时 。 因 为 这 个 地 址 在 win32 中 并 不 被 使 用 ， o 
发 一 个 异常 。 通 过 检查 异常 码 是 否 等 于 EXCEPTION_ACCESS VIOLATION 


读 0 地 址 内 存 的 代码 看 起 来 像 这 样 : 
Listing 68.2: MSVC 2010 


xor eax, eax 
mov eax, DWORD PTR [eax] ; exception will occur here 
push eax 

push OFFSET msg 

call _printf 

add esp, 8 


能 否 修复 “on the fly” 这 个 错误 然后 继续 执行 程序 ? 当然 ， 我 们 的 异常 处 理 程序 可 以 
修复 EAX 值 然 后 让 操作 系统 继续 执行 下 去 。 这 是 我 们 该 做 的 。 printf() 将 打印 1234 > 
因为 我 们 的 处 理 程 序 执行 后 EAX 不 是 0， 而 是 全 局 变量 new_value 的 地 址 。 


若 内 存 管理 器 有 一 个 关于 CPU 的 错误 信号 ，CPU 会 暂停 线程 ， 在 Windows 内 核查 找 
异常 处 理 程序 ， 然 后 一 个 一 个 调用 SEH 链 的 handler 。 


我 在 这 里 使 用 MSVC 2010， 当 然 ， 没 有 任何 保证 EAX 将 用 于 这 个 指针 o 


这 个 地 址 蔡 换 的 技巧 非常 的 漂亮 ， 我 经 常 使 用 它 插入 到 SEH 内 部 中 。 不 过 ， 我 忘记 
了 在 哪里 用 它 修复 “on the fly" 错 误 。 


为 什么 SHE 相关 的 记 ?据说 这 是 因为 操作 系统 不 需要 
在 函数 执行 完成 之 后 关心 这 些 信息 。 但 我 不 能 100% 肯 定 。 这 有 点 类 似 alloca()。 
68.3.2 现在 让 我 们 回 到 MSVC 


JE DL o^ 微软 的 程序 员 需 要 在 C 语 言 而 不 是 c++ 上 使 用 异常 ， 所 以 它们 在 MSVC 上 添 
加 了 一 个 非 标准 的 C 扩 展 。 它 与 C++ 的 异常 没有 任何 关联 。 


try 


e eed 


__except(filter code) 


handler code 


Ww 


“Finally" 块 也 许 能 代替 handler code : 


try 


| 


. finally 
{ 


ww 


fille code 是 一 个 表达 式 ， 告 诉 handler code 是 否 对 应 引发 的 异常 。 如 果 你 的 filte 
code 太 大 而 无 法 使 用 一 个 表达 式 ， 可 以 定义 一 个 单独 的 filte 部 数 。 


在 Windows 内 核 有 很 多 这 样 的 结构 ， 下 面 是 几 个 例子 (WRK (Windows Research 
Kernel) ) 


Listing 68.3: WRK-v1.2/base/ntos/ob/obwait.c 


try { 

KeReleaseMutant( (PKMUTANT)SignalObject, 
MUTANT INCREMENT, 
FALSE, 
TRUE ); 

} except((GetExceptionCode () == STATUS ABANDONED || 
GetExceptionCode () -- STATUS MUTANT NOT OWNED)? 
EXCEPTION EXECUTE HANDLER : 

EXCEPTION CONTINUE SEARCH) ( 
Status - GetExceptionCode(); 
goto WaitExit; 


Listing 68.4: WRK-v1.2/base/ntos/cache/cachesub.c 


try { 
RtlCopyBytes( (PVOID)((PCHAR)CacheBuffer + PageOffset), 


UserBuffer, 

MorePages ? 

(PAGE SIZE - PageOffset) 

(ReceivedLength - PageOffset) ); 
) except( CcCopyReadExceptionFilter( GetExceptionInformation(), 
Status ) ) { 


这 里 是 一 个 filter code 的 例子 : 


Listing 68.5: WRK-v1.2/base/ntos/cache/copysup.c 


LONG 

CcCopyReadExceptionFilter( 
IN PEXCEPTION POINTERS ExceptionPointer, 
IN PNTSTATUS ExceptionCode 


) 
/*++ 


Routine Description: 

This routine serves as a exception filter and has the specia 
1 job of 

extracting the "real" I/O error when Mm raises STATUS IN PAG 
E ERROR 

beneath us. 
Arguments: 

ExceptionPointer - A pointer to the exception record that co 
ntains 

the real Io Status. 

ExceptionCode - A pointer to an NTSTATUS that is to receive 
the real 

status. 
Return Value: 

EXCEPTION EXECUTE HANDLER 


EY 


{ 
*ExceptionCode = ExceptionPointer ->ExceptionRecord->Exceptio 
nCode; 
if ( (*ExceptionCode -- STATUS IN PAGE ERROR) && 
(ExceptionPointer ->ExceptionRecord->NumberParameters >= 
3) ) 
*ExceptionCode = (NTSTATUS) ExceptionPointer ->ExceptionR 
ecord->ExceptionInformation[2]; 
} 
ASSERT( !NT SUCCESS(*ExceptionCode) ); 
return EXCEPTION EXECUTE HANDLER; 


HE ABB > SEH ARE AA KINART A RAR HAR _except_handler3 (对 
于 SEH3) À except handler4 (对 于 SEH4) 。 这 个 处 理 函 数 的 代码 是 与 MSVC 相 
关 的 ， 它 位 于 它 的 库 或 在 msvcr*.dll 文 件 。 其 他 的 Win32 编 译 器 可 以 提供 与 之 完全 不 
同 的 机 制 。 


SEH3 


SEH3 有 一 个 _except_handler3 处 理 函 数 ， 而 且 扩展 了 
_EXCEPTION_REGISTRATION 表 ， 并 添加 了 一 个 指向 scope table 和 previous try 
level 变 量 。SEH4 扩 展 了 scope table 缓 冲 溢出 保护 。 


scope table 是 一 个 表 ， 包 含 了 指向 filter 和 handler code $5 X fe & ^-trylexceptéx & ° 
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再 者 ， 操 作 系 统 只 关心 prev/handle 字 段 。 except handler3 $ 3k 4) Le zi: LH 46 
字段 和 scope table， 并 决定 由 哪些 处 理 程序 来 执行 。 


_except_handler3 有 函数 的 源 代 码 是 闭 源 的 。 然 而 ，Sanos 操 作 系 统 的 win32 兼 容 性 层 
重新 实现 相同 的 功能 。 其 它 类 似 的 实现 有 Wine 和 ReactOS 。 


如 果 filter 指 针 为 NULL，handler 指 针 则 指向 finally 代 码 块 。 
执行 期 间 ， 栈 中 的 previous try level 变 量 发 生变 化 ， 所 以 _except_handler3 可 以 获 
取 当 前 通 套 级 的 信息 ， 才 知道 要 使 用 scope table 哪 一 表 项 。 


SEH3: 一 个 try/except 块 例子 


#include <stdio.h> 
#include <windows.h> 
#include <excpt.h> 
int main() 


{ 
int* p = NULL; 
__try 
Y 
printf("hello #1!\n"); 
*p = 13; // causes an access violation exception; 
printf("hello #2!\n"); 
} 
. except(GetExceptionCode( )==EXCEPTION_ACCESS_VIOLATION ? 
EXCEPTION EXECUTE HANDLER : EXCEPTION CONTINUE SEAR 
CH) 
printf("access violation, can't recover\n"); 
} 


Listing 68.6: MSVC 2003 


$SG74605 DB 'hello #1!', OaH, QOH 

$SG74606 DB 'hello 42!', OaH, QOH 

$SG74608 DB 'access violation, can''t recover', OaH, OOH 
. DATA ENDS 


; Scope table 


CONST SEGMENT 
$174622 DD OffffffffH ; previous try level 


DD FLAT:$L74617 ; filter 
DD FLAT:$L74618 ; handler 
CONST ENDS 


. TEXT SEGMENT 


$T74621 - -32 ; size = 4 
_p$ = -28 ; size = 4 
__$SEHRec$ = -24 ; size = 24 
_main PROC NEAR 
push ebp 
mov ebp, esp 
push -1 ; previous try level 
push OFFSET FLAT:$T74622 ; Scope table 


push OFFSET FLAT: except handler3 ; handler 

mov eax, DWORD PTR fs: except list 

push eax ; prev 

mov DWORD PTR fs: except list, esp 

add esp, -16 

push ebx ; Saved 3 registers 
push esi ; Saved 3 registers 


push edi 
mov DWORD PTR — $SEHRec$[ebp], esp 
mov DWORD PTR _p$[ebp], 0 
mov DWORD PTR __$SEHRec$[ebp+20], 0 
push OFFSET FLAT: $SG74605 
call _printf 
add esp, 4 
mov eax, DWORD PTR _p$[ebp] 
mov DWORD PTR [eax], 13 
push OFFSET FLAT: $SG74606 
call _printf 
add esp, 4 
mov DWORD PTR __$SEHRec$[ebp+20], -1 
jmp SHORT $L74616 
; filter code 
$L74617: 
$L74627: 
mov ecx, DWORD PTR A $SEHRec$[ebp-*4] 
mov edx, DWORD PTR [ecx] 
mov eax, DWORD PTR [edx] 
mov DWORD PTR $T74621[ebp], eax 
mov eax, DWORD PTR $T74621[ebp] 
sub eax, -1073741819; c0000005H 
neg eax 
sbb eax, eax 
inc eax 
$L74619: 
$L74626: 
ret 0 
; handler code 
$L74618: 
mov esp, DWORD PTR — $SEHRec$[ebp] 
push OFFSET FLAT:$SG74608 
an''t recover' 
call _printf 
add esp, 4 
mov DWORD PTR __$SEHRec$[ebp+20], -1 
level back to -1 
$L74616: 
xor eax, eax 
mov ecx, DWORD PTR A $SEHRec$[ebp-8] 
mov DWORD PTR fs:__except_list, ecx 
pop edi 
pop esi 
pop ebx 
mov esp, ebp 
pop ebp 
ret 0 
_main ENDP 
_TEXT ENDS 
END 


; saved 3 registers 


; previous try level 
; 'hello #1!' 


; 'hello #2!' 


; previous try level 


; 'access violation, c 


; setting previous try 


在 这 里 我 们 可 以 看 到 SEH 帧 是 如 果 在 栈 中 构建 出 来 的 ， table 位 于 CONST 
segment- 事 实 上 ， 这 些 字段 是 不 被 改变 的 。 一 件 有 趣 的 事情 是 如 何 改变 peius try 
level 变 量 。 它 的 初始 化 值 是 OxFFFFFFFF(-1)。 当 进入 try 语 名 块 的 时 候 ， 变 量 由 人 
为 0。 当 try 语 句 块 结束 的 时 候 ， 写 回 -1。 我 们 还 能 看 到 filter 和 handler coders wae o 
因此 ， 我 们 可 以 很 容易 在 函数 里 看 到 try/except 是 如 何 构造 的 。 


ud X oL idea 个 函数 共享 ， 有 时 候 编译 器 会 在 函数 序言 插入 调 
FI SEH_prolog() #4 > ARER T MEF © SEHE ARA ZSEH_epilog()# 
数 。 


让 我 们 尝试 用 tracer 运 行 这 个 例子 : 


tracer.exe -1:2.exe --dump-seh 


Listing 68.7: tracer.exe output 


EXCEPTION ACCESS VIOLATION at 2.exe!maint+0x44 (0x401054) Excepti 
onInformation[0]-1 

EAX-0x00000000 EBX-Ox7efde000 ECX=0x0040cbc8 EDX-0x0008e3c8 
ESI-0x00001db1 EDI-0x00000000 EBP=0x0018feac ESP-0x0018fe80 
EIP-0x00401054 

FLAGS-AF IF RF 

* SEH frame at Ox18fe9c prev-0x18ff78 handler=0x401204 (2.exe! e 
xcept handler 

SEH3 frame. previous trylevel=0 

scopetable entry[0]. previous try level--1, filter-0x401070 (2.e 
xe!main-0x60) handler=0x401088 (2.exe!main-*0x78) 

* SEH frame at Ox18ff78 prev=0x18ffc4 handler=0x401204 (2.exe! e 
xcept handler3) 

SEH3 frame. previous trylevel=0 

scopetable entry[0]. previous try level--1, filter=0x401531 (2.e 
xe!mainCRTStartup+0x18d) handler=0x401545 (2.exe!mainCRTStartup+ 
0x1a1) 

* SEH frame at Ox18ffc4 prev=0x18ffe4 handler=0x771f71f5 (ntdll. 
dll! except handler4) 

SEHA frame. previous trylevel=0 

SEHA header: GSCookieOffset-Oxfffffffe GSCookieXOROffset-OxO 
EHCookieOffset-Oxffffffcc EHCookieXOROffset-0x0 

scopetable entry[0]. previous try level--2, filter=0x771f74d0 (n 
td11.d]111! safe_se_handler_table+0x20) handler=0x771f90eb (ntdl 
l.dll! TppTerminateProcessQ4-0x43) 

* SEH frame at Ox18ffe4 prev-Oxffffffff handler=0x77247428 (ntdl 
l.dll! FinalExceptionHandlerQ)16) 





我 们 看 到 ，SEH 链 包含 4 个 handler 。 


前 面 两 个 是 我 们 的 例子 。 两 个 ?但 是 我 们 只 有 一 个 ?是 的 ， 一 个 是 CRT 的 
_mainCRTStartup() 况 数 设 置 的 。 并 至 少 作 为 FPU 错 常 的 处 理 。 它 的 源码 可 以 在 
MSVC 的 安装 目录 找到 : crt/src/winxfltr.c ° 


第 三 个 是 ntdll.dll 的 SEH4， 第 四 个 handler 也 位 于 ntdll.dll， 跟 MSVC 没 什么 关系 ， 它 
有 一 个 自 描述 函数 名 。 

正如 你 所 见 ， 在 一 个 链 中 有 三 种 类 型 的 处 理 函 数 : 一 个 跟 MSVC( 最 后 一 个 ) 没 什么 
关系 和 两 个 与 MSVC 关 联 的 : SEH3 和 SEH4 。 


SEH3: 两 个 try/except 块 例子 


#include <stdio.h> 

#include <windows.h> 

#include <excpt.h> 

int filter user exceptions (unsigned int code, struct EXCEPTION 
_POINTERS *ep) 


{ 
printf("in filter. code=0x%08X\n", code); 
if (code == 0x112233) 
{ 
printf("yes, that is our exception\n"); 
return EXCEPTION_EXECUTE_HANDLER; 
} 
else 
{ 
printf("not our exception\n"); 
return EXCEPTION CONTINUE SEARCH; 
}; 
} 
int main() 
{ 
int* p = NULL; 
. try 
{ 
__try 
{ 
printf ("hello!\n"); 
RaiseException (0x112233, 0, 0, NULL); 
printf ("0x112233 raised. now let's crash\n"); 
*p = 13; // causes an access violation exception; 
j 
. except(GetExceptionCode()--EXCEPTION ACCESS VIOLATION 
2 
EXCEPTION EXECUTE HANDLER : EXCEPTION CONTINUE 
SEARCH) 
printf("access violation, can't recover\n"); 
j 


. except(filter user exceptions(GetExceptionCode(), GetExcep 
tionInformation())) 


// the filter user exceptions() function answering to th 
e question 

// "is this exception belongs to this block?" 

// if yes, do the follow: 

printf("user exception caught\n"); 


现在 有 两 个 try 块 ， 所 以 scope table 现 在 有 两 个 元 素 ， 每 个 块 占用 一 个 。Previous 
try level 随 着 try 块 的 进入 或 退出 而 改变 。 


Listing 68.8: MSVC 2003 


$SG74606 DB 'in filter. code=0x%08X', OaH, OOH 
$SG74608 DB 'yes, that is our exception', OaH, OOH 
$SG74610 DB 'not our exception', OaH, OOH 
$SG74617 DB 'hello!', OaH, OOH 
$SG74619 DB '0x112233 raised. now let''s crash', QaH, OOH 
$SG74621 DB 'access violation, can''t recover', OaH, OOH 
$SG74623 DB 'user exception caught', OaH, OOH 
_code$ = 8 ; size = 4 
_ep$ = 12 ; size = 4 
_filter_user_exceptions PROC NEAR 
push ebp 
mov ebp, esp 
mov eax, DWORD PTR _code$[ebp] 
push eax 
push OFFSET FLAT:$SG74606 ; ‘in filter. code=0x%08x' 
call _printf 
add esp, 8 
cmp DWORD PTR _code$[ebp], 1122867; 00112233H 
jne SHORT $L74607 
push OFFSET FLAT:$SG74608 ; 'yes, that is our exception' 
call _printf 
add esp, 4 
mov eax, 1 
jmp SHORT $L74605 
$L74607 : 
push OFFSET FLAT:$SG74610 ; 'not our exception' 
call _printf 
add esp, 4 
xor eax, eax 
$L74605: 
pop ebp 
ret 0 
_filter_user_exceptions ENDP 


; Scope table 


CONST SEGMENT 
$1T74644 DD OffffffffH ; previous try level for outer block 
DD FLAT:$L74634 ; outer block filter 
DD FLAT:$L74635 ; outer block handler 
DD 00H ; previous try level for inner block 
DD FLAT:$L74638 ; inner block filter 
DD FLAT:$L74639 ; inner block handler 


CONST ENDS 
$T74643 = -36 ; size = 4 
$T74642 = -32 ; size = 4 


_p$ = -28 ; size = 4 
__$SEHRec$ = -24 ; size = 24 
_main PROC NEAR 


push ebp 
mov ebp，esp 


push -1 ; previous try level 


push OFFSET FLAT:$T74644 


push OFFSET FLAT: except handler3 
mov eax, DWORD PTR fs: except list 


push eax 


mov DWORD PTR fs: except list, esp 


add esp, -20 
push ebx 
push esi 
push edi 


mov DWORD PTR __$SEHRec$[ebp], esp 


mov DWORD PTR _p$[ebp], 0 


mov DWORD PTR __$SEHRec$[ebp+20], © ; outer try block entere 


mov DWORD PTR __$SEHRec$[ebp+20], 1 ; inner try block entere 


"hello!' 


'0x112233 raised. 


now let''s cra 


mov DWORD PTR __$SEHRec$[ebp+20], © ; inner try block exited 


d. set previous try level to 0 

d. set previous try level to 1 
push OFFSET FLAT:$SG74617 ; 
call _printf 
add esp, 4 
push 0 
push 0 
push 0 
push 1122867 ; 00112233H 
call DWORD PTR __imp_RaiseException@16 
push OFFSET FLAT:$SG74619 ; 

sh' 
call _printf 
add esp, 4 
mov eax, DWORD PTR _p$[ebp] 
mov DWORD PTR [eax], 13 

set previous try level back to 0 

jmp SHORT $L74615 
; inner block filter 

$L74638: 

$L74650: 
mov ecx, DWORD PTR __$SEHRec$[ebp+4 ] 
mov edx, DWORD PTR [ecx] 
mov eax, DWORD PTR [edx] 
mov DWORD PTR $T74643[ebp], eax 
mov eax, DWORD PTR $T74643[ebp] 
sub eax, -1073741819; c0000005H 
neg eax 
sbb eax, eax 
inc eax 

$L74640: 

$L74648: 
ret 0 
; inner block handler 

$L74639: 


mov esp, DWORD PTR . $SEHRec$[ebp] 


push OFFSET FLAT:$SG74621 ; 'access violation, can''t recove 
r 1 

call _printf 

add esp, 4 

mov DWORD PTR __$SEHRec$[ebp+20], © ; inner try block exited 

set previous try level back to 0 

$L74615: 

mov DWORD PTR __$SEHRec$[ebp+20], -1 ; outer try block exite 
d, set previous try level back to -1 

jmp SHORT $L74633 

; outer block filter 
$L74634: 
$L74651: 

mov ecx, DWORD PTR __$SEHRec$[ebp+4 ] 

mov edx, DWORD PTR [ecx] 

mov eax, DWORD PTR [edx] 

mov DWORD PTR $T74642[ebp], eax 

mov ecx, DWORD PTR A $SEHRec$[ebp-*4] 


push ecx 
mov edx, DWORD PTR $T74642[ebp] 
push edx 
call filter user exceptions 
add esp, 8 
$L74636: 
$L74649: 
ret 0 
; outer block handler 
$L74635: 


mov esp, DWORD PTR .— $SEHRec$[ebp] 
push OFFSET FLAT:$SG74623 ; 'user exception caught' 
call _printf 
add esp, 4 
mov DWORD PTR __$SEHRec$[ebp+20], -1 ; both try blocks exite 
d. set previous try level back to -1 
$L74633: 
xor eax, eax 
mov ecx, DWORD PTR __$SEHRec$[ebp+8 ] 
mov DWORD PTR fs:__except_list, ecx 
pop edi 
pop esi 
pop ebx 
mov esp, ebp 
pop ebp 
ret 0 
_main ENDP 


do RAK AE handler ¥ AA 49 printf) £& Zi E — 4- BR » TAA $1 3 —4-SEH 
handler 如 何 被 添加 。 同 样 ， 我 们 还 可 以 看 到 Scope table 包 含 两 个 元 素 。 


tracer.exe -1:3.exe bpx=3.exe!printf --dump-seh 


Listing 68.9: tracer.exe output 


(0) 3.exe!printf 

EAX-0x0000001b EBX-0x00000000 ECX-0x0040cc58 EDX-0x0008e3c8 
ESI-0x00000000 EDI-0x00000000 EBP=0x0018f840 ESP-0x0018f838 
EIP-0x004011b6 

FLAGS-PF ZF IF 

* SEH frame at O0x18f88c prev=0x18fe9c handler=0x771db4ad (ntdll. 
dll!ExecuteHandler2020-0x3a) 

* SEH frame at Ox18fe9c prev=0x18ff78 handler=0x4012e0 (3.exe! e 
xcept handler3) 

SEH3 frame. previous trylevel=1 

scopetable entry[0]. previous try level--1, filter=0x401120 (3.e 
xe!main-O0xbO) handler=0x40113b (3.exe!main+Oxcb) 

scopetable entry[1]. previous try level=0, filter=0x4010e8 (3.ex 
e!main+0x78) handler=0x401100 (3.exe!main+0x90) 

* SEH frame at Ox18ff78 prev=0x18ffc4 handler=0x4012e0 (3.exe!_e 
xcept handler3) 

SEH3 frame. previous trylevel=0 

scopetable entry[0]. previous try level--1, filter=0x40160d (3.e 
xe!mainCRTStartup+0x18d) handler=0x401621 (3.exe!mainCRTStartup+ 
0x1a1 

* SEH frame at Ox18ffc4 prev=0x18ffe4 handler=0x771f71f5 (ntdll. 
dll! except handler4) 

SEHA frame. previous trylevel=0 

SEHA header: GSCookieOffset-Oxfffffffe GSCookieXOROffset-OxO 
EHCookieOffset-Oxffffffcc EHCookieXOROffset-0x0 

scopetable entry[0]. previous try level--2, filter=0x771fF74d0 (n 
tdll.dll! safe se handler table-«0x20) handler=0x771f90eb (ntdl 
l.dll! TppTerminateProcessQ4-0x43) 

* SEH frame at Ox18ffe4 prev-Oxffffffff handler=0x77247428 (ntdl 
l.dll! FinalExceptionHandlerQ16) 





SEHA 


在 缓冲 区 攻击 期 间 (18.2%) > scope table 的 地 址 可 以 被 重 写 。 所 以 从 MSVC 
2005 开 始 ，SEH3 升 级 到 SEH4 后 有 了 缓冲 区 溢出 保护 。 现 在 scope table 指 针 与 一 
个 security cookie (一 个 随机 值 ) 做 异 或 运算 。Sscope table 扩 展 了 和 包含 两 个 指向 
security cookie 指 针 的 头 部 。 每 个 元 素 都 有 另 一 个 栈 内 偏 移 值 : 栈 帧 的 地 址 

(EBP) 与 security_cookie 异 或 。 该 值 将 在 异常 处 理 过 程 中 读 取 并 检查 其 正确 性 。 
栈 中 的 security cookie 每 次 都 是 随机 的 ， 所 以 远程 攻击 者 无 法 预测 到 它 。 


SEH4 的 previous try level 初 始 化 值 是 -2 而 不 是 -1。 
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handler/finally function 


more entries 


这 里 有 两 个 使 用 MSVC 编 译 的 SEH4 例 子 : 


Listing 68.10: MSVC 2012: one try block example 


$SG85485 DB 'hello #1!', QaH, OOH 
$SG85486 DB 'hello #2!', QaH, 00H 
$SG85488 DB 'access violation, can''t recover', QaH, OOH 


; Scope table: 


xdata$x SEGMENT 

. Sehtable$ main DD OfffffffeH ; GS Cookie Offset 
DD OOH ; GS Cookie XOR Offset 
DD OffffffccH ; EH Cookie Offset 
DD OOH ; EH Cookie XOR Offset 
DD OfffffffeH ; previous try level 
DD FLAT:$LN12Q0main ; filter 
DD FLAT:$LN8Qmain  ; handler 

xdata$x ENDS 

$T2 = -36 2 Gia = ál 

_p$ = -32 ; size = 4 

tv68 = -28 ; size = 4 

__$SEHRec$ = -24 ; size = 24 


main PROC 


push ebp 
mov ebp, esp 
push -2 


push OFFSET  sehtable$ main 
push OFFSET _ except handler4 
mov eax, DWORD PTR fs:0 

push eax 

add esp, -20 


push ebx 
push esi 
push edi 
mov eax, DWORD PTR _ security cookie 


xor DWORD PTR __$SEHRec$[ebp+16], eax ; xored pointer to 
scope table 

xor eax, ebp 

push eax ; ebp ^ security coo 
kie 

lea eax, DWORD PTR __$SEHRec$[ebp+8] ; pointer to VC EXCE 
PTION REGISTRATION RECORD 

mov DWORD PTR fs:0, eax 

mov DWORD PTR __$SEHRec$[ebp], esp 

mov DWORD PTR _p$[ebp], © 

mov DWORD PTR __$SEHRec$[ebp+20], © ; previous try level 

push OFFSET $SG85485 ; 'hello #1!' 

call _ printf 

add esp, 4 

mov eax, DWORD PTR _p$[ebp] 

mov DWORD PTR [eax], 13 

push OFFSET $SG85486 ; 'hello #2!' 

call _ printf 

add esp, 4 

mov DWORD PTR __$SEHRec$[ebp+20], -2 ; previous try level 

jmp SHORT $LN6@main 


; filter: 
$LN7Qmain: 
$LN12@main: 
mov ecx, DWORD PTR __$SEHRec$[ebp+4] 
mov edx, DWORD PTR [ecx] 
mov eax, DWORD PTR [edx] 
mov DWORD PTR $T2[ebp], eax 
cmp DWORD PTR $T2[ebp], -1073741819 ; c0000005H 
jne SHORT $LN4@main 
mov DWORD PTR tv68[ebp], 1 
jmp SHORT $LN5@main 
$LN4@main: 
mov DWORD PTR tv68[ebp], O 
$LN5@main: 
mov eax, DWORD PTR tv68[ebp] 
$LN9Qmain: 
$LN11@main: 
ret 0 


; handler: 
$LN8@main: 
mov esp, DWORD PTR . $SEHRec$[ebp] 
push OFFSET $SG85488 ; 'access violation, can''t recover' 
call _ printf 
add esp, 4 
mov DWORD PTR __$SEHRec$[ebp+20], -2 ; previous try level 
$LN6@main: 
xor eax, eax 
mov ecx, DWORD PTR  $SEHRec$[ebp-*8] 
mov DWORD PTR fs:0, ecx 


pop ecx 
pop edi 

pop esi 

pop ebx 

mov esp, ebp 
pop ebp 

ret 0 


main ENDP 


Listing 68.11: MSVC 2012: two try blocks example 


$SG85486 DB 'in filter. code=0x%08X', QaH, OOH 

$SG85488 DB 'yes, that is our exception', QaH, OOH 
$SG85490 DB ‘not our exception', OaH, OOH 

$SG85497 DB 'hello!', QaH, OOH 

$SG85499 DB '0x112233 raised. now let''s crash', OaH, OOH 
$SG85501 DB "access violation, can''t recover', QaH, OOH 
$SG85503 DB "user exception caught', OaH, OOH 


xdata$x SEGMENT 
__sehtable$_main DD OfffffffeH ; GS Cookie Offset 

DD OOH ; GS Cookie XOR Offset 

DD Offffffc8H ; EH Cookie Offset 

DD 00H ; EH Cookie Offset 

DD OfffffffeH ; previous try level for 
outer block 

DD FLAT:$LN19Qmain ; outer block filter 

DD FLAT:$LN9Qmain ; outer block handler 

DD OOH ; previous try level for 
inner block 

DD FLAT: $LN18@main ; inner block filter 

DD FLAT: $LN13@main ; inner block handler 
xdata$x ENDS 


$T2 = -40 ; size = 4 
$T3 = -36 size = 24) 
_p$ = -32 ; size = 4 
tv72 = -28 ; size = 4 
__$SEHRec$ = -24 ; size = 24 


main PROC 


push ebp 
mov ebp, esp 
push -2 ; initial previous try level 


push OFFSET _ sehtable$ main 
push OFFSET — except handler4 
mov eax, DWORD PTR fs:0 

push eax ; prev 

add esp, -24 


push ebx 

push esi 

push edi 

mov eax, DWORD PTR _ security cookie 

xor DWORD PTR __$SEHRec$[ebp+16], eax ; xored point 
er to scope table 

xor eax, ebp ; ebp ^ secur 


ity_cookie 

push eax 

lea eax, DWORD PTR __$SEHRec$[ebp+8 ] ; pointer to 
VC EXCEPTION REGISTRATION RECORD 

mov DWORD PTR fs:0, eax 

mov DWORD PTR __$SEHRec$[ebp], esp 

mov DWORD PTR _p$[ebp], © 

mov DWORD PTR __$SEHRec$[ebp+20], © ; entering outer try 
block, setting previous try level=0 

mov DWORD PTR __$SEHRec$[ebp+20], 1 ; entering inner try 
block, setting previous try level=1 

push OFFSET $SG85497 ; 'hello!' 

call _printf 

add esp, 4 


push 0 
push 0 
push 0 


push 1122867 ; 00112233H 

call DWORD PTR _ imp RaiseException@16 

push OFFSET $SG85499 ; '0x112233 raised. now let''s crash' 

call _ printf 

add esp, 4 

mov eax, DWORD PTR _p$[ebp] 

mov DWORD PTR [eax], 13 

mov DWORD PTR __$SEHRec$[ebp+20], © ; exiting inner try b 
lock, set previous try level back to 0 

jmp SHORT $LN2@main 


; inner block filter: 
$LN12@main: 
$LN18Q0main: 
mov ecx, DWORD PTR . $SEHRec$[ebp-*4] 
mov edx, DWORD PTR [ecx] 
mov eax, DWORD PTR [edx] 
mov DWORD PTR $T3[ebp], eax 
cmp DWORD PTR $T3[ebp], -1073741819 ; c0000005H 
jne SHORT $LN5@main 


mov DWORD PTR tv72[ebp], 1 

jmp SHORT $LN6@main 
$LN5@main: 

mov DWORD PTR tv72[ebp], 0 
$LN6@main: 

mov eax, DWORD PTR tv72[ebp] 
$LN14Qmain: 
$LN16@main: 

ret 0 


; inner block handler: 
$LN13@main: 
mov esp, DWORD PTR __$SEHRec$[ebp ] 
push OFFSET $SG85501 ; 'access violation, can''t recover' 
call _ printf 
add esp, 4 
mov DWORD PTR __$SEHRec$[ebp+20], © ; exiting inner try b 
lock, setting previous try level back to 0 
$LN2@main: 
mov DWORD PTR __$SEHRec$[ebp+20], -2 ; exiting both block 
s, setting previous try level back to -2 
jmp SHORT $LN7@main 


; outer block filter: 
$LN8@main: 
$LN19@main: 
mov ecx, DWORD PTR __$SEHRec$[ebp+4] 
mov edx, DWORD PTR [ecx] 
mov eax, DWORD PTR [edx] 
mov DWORD PTR $T2[ebp], eax 
mov ecx, DWORD PTR __$SEHRec$[ebp+4] 
push ecx 
mov edx, DWORD PTR $T2[ebp] 


push edx 
call . filter user exceptions 
add esp, 8 
$LN10@main: 
$LN17@main: 
ret 0 


; outer block handler: 
$LN9Qmain: 
mov esp, DWORD PTR . $SEHRec$[ebp] 
push OFFSET $SG85503 ; 'user exception caught' 
call _ printf 
add esp, 4 
mov DWORD PTR __$SEHRec$[ebp+20], -2 ; exiting both block 
s, setting previous try level back to -2 
$LN7@main: 
xor eax, eax 
mov ecx, DWORD PTR __$SEHRec$[ebp+8 ] 
mov DWORD PTR fs:0, ecx 
pop ecx 


pop edi 
pop esi 
pop ebx 
mov esp, ebp 
pop ebp 
ret 0 
_main ENDP 
_code$ = | Size — 74 
_ep$ = ; size = 4 
_filter_user_exceptions PROC 
push ebp 
mov ebp, esp 
mov eax, DWORD PTR _code$[ebp ] 
push eax 
push OFFSET $SG85486 ; 'in filter. code=0x%08x' 
call _ printf 
add esp, 8 
cmp DWORD PTR _code$[ebp], 1122867 ; 00112233H 
jne SHORT $LN2@filter_use 
push OFFSET $SG85488 ; 'yes, that is our exception' 
call _ printf 
add esp, 4 
mov eax, 1 
p SHORT $LNS3Qfilter use 
mp SHORT $LN3Qfilter use 
SUO LE use: 
push OFFSET $SG85490 ; 'not our exception' 
call _ printf 
add esp, 4 
xor eax, eax 
$LN3Qfilter_use: 
pop ebp 
ret 0 


filter user exceptions ENDP 


这 里 是 cookie 的 含义 : Cookie Offset] T IX 77 T saved EBP& X; 3E fe 
EBPésecurity cookie ° 。 附 加 的 Cookie XOR Offset T R 2 EBPesecurity cookie 
是 否 保存 在 栈 中 。 如 果 这 个 等 式 不 为 true， 会 由 于 栈 受 到 破坏 而 停止 这 个 过 程 。 


security_cookie®(Cookie XOR Offset-address of saved EBP) == 
stack[address of saved EBP + CookieOffset] 


t J& Cookie Offset 为 -2， 这 意味 着 它 不 存在 。 
在 我 的 tracer 工 具 也 实现 了 Cookie 检 查 ， 上 有 具体 请 看 Github。 


MSVC 2005 之 后 的 编译 器 开启 /GS 选项 仍 可 能 会 回 滚 到 SEH3。 不 过 ，CRT 的 代码 
总 是 使 用 SEH4。 


68.3.3 Windows x64 


正如 你 所 认为 的 ， 每 个 函数 序言 在 设置 SEH 帧 效率 不 高 。 另 一 个 性 能 问题 是 ， 函 数 
执行 期 间 多 次 尝试 改变 previous try level。 这 种 情况 在 X64 完 全 改变 了 : 现在 所 有 指 
向 try 块 ，filter 和 handler 函 数 都 保存 在 PE 文件 的 .pdata 段 ， 由 它 提供 给 操作 系统 异 
常 处 理 所 需 信息 。 


这 里 有 两 个 使 用 X64 编 译 的 例子 : 
Listing 68.12: MSVC 2012 


$SG86276 DB 'hello #1!', OaH, 00H 
$SG86277 DB 'hello #2!', QaH, OOH 
$SG86279 DB ‘access violation, can''t recover', OaH, OOH 
pdata SEGMENT 
$pdata$main DD imagerel $LN9 
DD imagerel $LN9+61 
DD imagerel $unwind$main 
pdata ENDS 
pdata SEGMENT 
$pdata$main$filt$O DD imagerel main$filt$0O 
DD imagerel main$filt$0+32 
DD imagerel $unwind$main$filt$o 
pdata ENDS 
xdata SEGMENT 
$unwind$main DD 020609H 
DD 030023206H 
DD imagerel . C specific handler 
DD 01H 
DD imagerel $LN9+8 
DD imagerel $LN9+40 
DD imagerel main$filt$0 
DD imagerel $LN9+40 
$unwind$main$filt$O DD 020601H 
DD 050023206H 
xdata ENDS 
_TEXT SEGMENT 
main PROC 
$LN9: 
push rbx 
sub rsp, 32 
xor ebx, ebx 
lea rcx, OFFSET FLAT:$SG86276 ; 'hello #1!' 
call printf 
mov DWORD PTR [rbx], 13 
lea rcx, OFFSET FLAT:$SG86277 ; 'hello #2!' 
call printf 
jmp SHORT $LN8@main 
$LN6@main: 
lea rcx, OFFSET FLAT:$SG86279 ; 'access violation, can''t re 
cover' 
call printf 
npad 1 ; align next label 
$LN8@main: 


xor eax, eax 
add rsp, 32 
pop rbx 
ret 0 

main ENDP 

_TEXT ENDS 


text$x SEGMENT 
main$filt$0 PROC 
push rbp 
sub rsp, 32 
mov rbp, rdx 
$LN5Qmain$filt$: 
mov rax, QWORD PTR [rcx] 
XOr ecx, ecx 
cmp DWORD PTR [rax], -1073741819; 
sete cl 
mov eax, ecx 
$LN7Qmain$filt$: 
add rsp, 32 
pop rbp 
ret 0 
int 3 
main$filt$0 ENDP 
text$x ENDS 


Listing 68.13: MSVC 2012 


$SG86277 DB 'in filter. code=0x%08X', 


c0000005H 


OaH, OOH 


$SG86279 DB 'yes, that is our exception', OaH, OOH 


$SG86281 DB 'not our exception', O0aH, 
$SG86288 DB 'hello!', QaH, OOH 


$SG86290 DB '0x112233 raised. now let''s crash', QaH, OOH 
$SG86292 DB 'access violation, can''t recover', OaH, OOH 


OOH 


$SG86294 DB 'user exception caught', OaH, OOH 


pdata SEGMENT 


$pdata$filter_user_exceptions DD imagerel $LN6 


DD imagerel $LN6+73 


DD imagerel $unwind$filter_user_exceptions 


$pdata$main DD imagerel $LN14 
DD imagerel $LN14+95 
DD imagerel $unwind$main 
pdata ENDS 
pdata SEGMENT 


$pdata$main$filt$O DD imagerel main$filt$0O 


DD imagerel main$filt$0+32 
DD imagerel $unwind$main$filt$O 


$pdata$main$filt$1 DD imagerel main$filt$1 


DD imagerel main$filt$1+30 
DD imagerel $unwind$main$filt$1 


pdata ENDS 
xdata SEGMENT 
$unwind$filter user exceptions DD 020601H 
DD 030023206H 
$unwind$main DD 020609H 
DD 030023206H 
DD imagerel _C specific handler 
DD 02H 
DD imagerel $LN14+8 
DD imagerel $LN14+59 
DD imagerel main$filt$0 
DD imagerel $LN14+59 
DD imagerel $LN14+8 
DD imagerel $LN14+74 
DD imagerel main$filt$1 
DD imagerel $LN14+74 
$unwind$main$filt$0 DD 020601H 
DD 050023206H 
$unwind$main$filt$1 DD 020601H 
DD 050023206H 
xdata ENDS 


_TEXT SEGMENT 
main PROC 
$LN14: 
push rbx 
sub rsp, 32 
xor ebx, ebx 
lea rcx, OFFSET FLAT:$SG86288 ; 'hello!' 
call printf 
xor r9d, r9d 
xor r8d, r8d 
xor edx, edx 
mov ecx, 1122867 ; 00112233H 
call QWORD PTR _ imp RaiseException 
lea rcx, OFFSET FLAT:$SG86290 ; '0x112233 raised. now let''s 
crash' 
call printf 
mov DWORD PTR [rbx], 13 
jmp SHORT $LN13@main 
$LN11@main: 
lea rcx, OFFSET FLAT:$SG86292 ; 'access violation, can''t re 
cover' 
call printf 
npad 1 ; align next label 
$LN13@main: 
jmp SHORT $LN9@main 
$LN7@main: 
lea rcx, OFFSET FLAT: $SG86294 ; 'user exception caught' 
call printf 
npad 1 ; align next label 
$LN9Qmain: 
xor eax, eax 


add rsp， 32 
pop rbx 
ret O 

main ENDP 


text$x SEGMENT 
main$filt$O PROC 
push rbp 
sub rsp, 32 
mov rbp, rdx 
$LN10Qmain$filt$: 
mov rax, QWORD PTR [rcx] 
XOr ecx, ecx 
cmp DWORD PTR [rax], -1073741819; 
sete cl 
mov eax, ecx 
$LN12@main$filt$: 
add rsp, 32 
pop rbp 
ret 0 
int 3 
main$filt$0 ENDP 
main$filt$1 PROC 
push rbp 
sub rsp, 32 
mov rbp, rdx 
$LN6Qmain$filt$: 
mov rax, QWORD PTR [rcx] 
mov rdx, rcx 
mov ecx, DWORD PTR [rax] 
call filter user exceptions 
npad 1 ; align next label 
$LN8Qmain$filt$: 
add rsp, 32 
pop rbp 
ret 0 
int 3 
main$filt$1 ENDP 
text$x ENDS 


_TEXT SEGMENT 
code$ - 48 
ep$ - 56 
filter user exceptions PROC 
$LN6 : 

push rbx 

sub rsp, 32 

mov ebx, ecx 

mov edx, ecx 


c0000005H 


lea rcx, OFFSET FLAT:$SG86277 ; 'in filter. 


call printf 
cmp ebx, 1122867; 00112233H 
jne SHORT $LN2Qfilter use 


code=0x%08xX' 


lea rcx, OFFSET FLAT:$SG86279 ; 'yes, that is our exception' 
call printf 
mov eax, 1 
add rsp, 32 
pop rbx 
ret 0 
$LN20filter use: 
lea rcx, OFFSET FLAT:$SG86281 ; 'not our exception' 
call printf 
xor eax, eax 
add rsp, 32 
pop rbx 
ret 0 
filter_user_exceptions ENDP 
_TEXT ENDS 


读 Sko12 获 取 更 多 详细 的 信息 。 
除了 异常 信息 ，.pdata 还 包含 了 几乎 所 有 函数 的 开始 和 结束 地 址 ， 因 此 它 可 能 对 于 
自动 化 分 析 工 具有 用 。 


68.3.4 更 多 关于 SEH 的 信息 


Matt Pietrek. “A Crash Course on the Depths of Win32™ Structured Exception 
Handling". In: MSDN magazine (). URL: hittp://go.yurichev.com/17293. 


Igor Skochinsky. Compiler Internals: Exceptions and RTTI. Also available as 
http://go.yurichev.com/ 17294. 2012. 


68.4 Windows NT: Critical section 


临界 区 在 任何 操作 系统 多 线程 环境 中 都 是 非常 重要 的 ， 它 保证 一 个 线程 在 某 一 时 刻 
访问 一 些 数据 的 时 候 ， 阻 塞 其 它 正 要 访问 这 些 数 据 的 线程 。 


下 面 是 Windows NT 操作 系统 的 CRITICAL_SECTION 声 明 : 
Listing 68.14: (Windows Research Kernel v1.2) public/sdk/inc/nturtl.h 


typedef struct _RTL_CRITICAL_SECTION { 

PRTL CRITICAL SECTION DEBUG DebugInfo; 

// 

// The following three fields control entering and exiting t 
he critical 

// section for the resource 

// 

LONG LockCount; 

LONG RecursionCount; 

HANDLE OwningThread; // from the thread's ClientId->UniqueTh 
read 

HANDLE LockSemaphore; 

ULONG PTR SpinCount; // force size on 64-bit systems when pa 
cked 
) RTL CRITICAL SECTION, *PRTL CRITICAL SECTION; 


TAAT T EnterCriticalSection() Zt 49 2 4p 31 f£. : 
Listing 68.15: Windows 2008/ntdll.dll/x86 (begin) 


_RtlEnterCriticalSection@4 


var C = dword ptr -OCh 
var 8 - dword ptr -8 
var 4 - dword ptr -4 
arg O = dword ptr 8 
mov edi, edi 
push ebp 


mov ebp, esp 

sub esp, OCh 

push esi 

push edi 

mov edi, [ebp+arg 0] 

lea esi, [edi+4] ; LockCount 

mov eax, esi 

lock btr dword ptr [eax], 0 

jnb wait ; jump if CF=0 
loc_7DE922DD: 

mov eax, large fs:18h 

mov ecx, [eaxt+24h] 

mov [edi-OCh], ecx 

mov dword ptr [edi-8], 1 

pop edi 

xor eax, eax 

pop esi 

mov esp, ebp 

pop ebp 

retn 4 

skipped 


在 这 段 代码 中 最 重要 的 指令 是 BTR( 带 LOCK 前 级 ) : 把 目的 操作 数 中 由 源 操作 数 所 指 
定位 的 值 送 往 标志 位 CF， 并 将 目的 操作 数 中 的 该 位 置 0。 这 是 一 个 原子 操作 ， 会 阻 
塞 掉 其 它 同时 想 要 访问 这 段 内 存 的 CPU (参看 BTR 指 令 的 LOCK 前 级) 。 如 果 
LockCount 是 1， 则 重 置 并 返回 : 我 们 现在 正 处 于 临界 区 。 如 果 不 是 ， 则 表示 其 它 线 
程 正 在 点 用， 将 进入 等 待 状态 。 


使 用 WaitForSingleObject() 进 入 等 待 状态 。 
下 面 展 示 了 LeaveCriticalSection() 函 数 的 运行 过 程 : 
Listing 68.16: Windows 2008/ntdll.dll/x86 (begin) 


.RtlLeaveCriticalSectionQ4 proc near 
arg 0 = dword ptr 8 
mov edi, edi 
push ebp 
mov ebp, esp 
push esi 
mov esi, [ebp+arg 0] 
add dword ptr [esi-8], OFFFFFFFFh ;RecursionCount 
jnz short loc 7DE922B2 
push ebx 
push edi 
lea edi, [esi+4] ; LockCount 
mov dword ptr [esi-OCh], 0 
mov ebx, 1 
mov eax, edi 
lock xadd [eax], ebx 
inc ebx 
cmp ebx, OFFFFFFFFh 
jnz loc 7DEA8EB7 
loc 7DE922B0: 
pop edi 
pop ebx 
loc 7DE922B2: 
xor eax, eax 
pop esi 
pop ebp 
retn 4 
. skipped 


XADD 指 令 功 能 是 : 交换 并 相 加 。 这 种 情况 下 ，LockCount 加 1 并 把 结果 保存 到 EBX 
寄存 器 ， 同 时 把 1 赋值 给 LockCount。 这 个 操作 是 原子 的 ， 因 为 它 使 用 了 LOCK 前 
级 ， 这 意味 着 系统 会 阻塞 其 它 CPU 或 CPU 核心 同时 访问 这 块 内 存 。 


LOCK 前 组 是 非常 重要 的 : 如 果 两 个 线程 ， 每 个 都 工作 在 不 同 的 CPU 或 CPU 核心 ， 
它们 都 能 够 进入 critical section 并 修改 内 存 数 据 ， 这 种 行为 将 导致 不 确定 的 后 果 。 
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Part VII 工具 


BATE 
反 汇 编 器 


69.1 IDA 


较 老 的 可 下 载 的 免费 版 本 :http://go.yurichev.com/17031 
短 热 键 列表 (第 977 页 ) 


pops 
TITA 2S 


70.1 OllyDbg 


非常 流行 的 win32 用 户 态 调试 器 http://go.yurichev.com/17032 短 热 键 列表 (第 977 页 ) 


70.2 GDB 


GDB 在 逆向 工程 师 中 并 不 非常 流行 ， 但 用 起 来 非常 舒适 。 部 分 命令 (第 978 页 ) 


70.3 tracer 


我 用 tracer 代 替 调 试 器 。 


我 最 终 不 再 使 用 调试 器 是 因为 我 所 需要 的 只 是 在 代码 执行 的 时 候 找 到 有 函数 的 参数 ， 
或 者 寄存 器 在 某 点 的 状态 。 每 次 加 载 调试 器 的 时 间 太 长 ， 因 此 我 编写 了 一 个 小 工具 
tracer ° 它 有 控制 台 接口 ， 和 运行 在 命令 行 下 ， 人 允许 我 们 给 函数 下 断 ， 查 看 寄存 器 状 
态 ， 修 改 值 等 等 。 

但 出 于 学 习 的 目的 更 建议 在 调试 器 中 手动 跟踪 代码 ， 12s 器 状态 是 怎么 变化 的 
(比如 经 典 的 SoftICE,Ollydbg,Windbg 和 寄存器 值 发 生变 化 会 部 多 改 标 志 
位 ， 数 据 然后 观察 效果 。 


第 七 十 一 章 
系统 调用 跟踪 


71.0.1 stace/dtruss 
显示 当前 进程 的 系统 调用 (第 697 页 )。 比 如 : 


# strace df -h 


access("/etc/ld.so.nohwcap", F OK) - -1 ENOENT (No such fil 
e or directory) 

open("/lib/i386-linux-gnu/libc.so.6", O RDONLY|O CLOEXEC) = 3 
read(3, "N177ELFN1N1N1NONONONONONONONONON3NON3NON1NONONON220N232 
N1N0004N0N0N0Q"..., 512) = 512 

fstat64(3, (st mode=S IFREG|0755, st size-1770984, ...}) = 0 
mmap2(NULL, 1780508, PROT READ|PROT EXEC, MAP PRIVATE|MAP DENYWR 
ITE, 3, ©) = 0xb75b3000 


Mac OS X 的 dtruss 也 有 这 个 功能 。 


Cygwin 也 有 strace， 但 如 果 我 理解 正确 的 话 ， 它 只 为 cygwin 环境 编译 exe 文 件 工 
作 。 


第 七 十 二 章 


反 编译 器 
只 有 一 个 已 知 的 ， 公 开 的 ， 高 质量 的 反 编 译 C 代 码 的 反 编 译 器 : Hex-Rays 
http://go.yurichev.com/17033 


第 七 十 三 章 


其 他 工具 
e Microsoft Visual Studio Express1:Visual Studio 精 简 版 ， 方 便 做 简单 的 实验 。 
部 分 有 用 的 选项 (第 978 页 ) 
e Hiew : 适用 于 二 进 制 文件 小 型 修改 


e binary grep: 大 量 文件 中 搜索 常量 (或 者 任何 有 序 字 节 ) 的 小 工具 ， 也 可 以 用 于 不 
可 执行 文件 : GitHub 


Part IX 逆向 文件 格式 的 例子 


RAY HK R 


第 八 十 四 章 
简单 异 或 加 窗 


84.1 


Norton Guide 这 款 工 具 在 MS-DOS 时 代 很 受 欢 迎 ， 作 为 超 文 本 参考 手册 程序 常 驻 在 
系统 中 。 Norton Guide 的 数据 库 文 件 扩展 名 是 .ng， 内 容 看 上 去 是 加 密 的 : 
2 — ipi xj 


view XB6.NG - Far 20.1807 x64 Adminis! trator 





为 什么 我 说 内 容 是 加 密 的 而 不 是 压缩 的 呢 ? 可 以 看 到 ，0Xx1A 字 节 ( 看 起 来 是 >”) 经 
常 出 现 ， 而 在 压缩 文件 中 不 会 有 这 种 情况 ,所 以 这 是 个 加 密 文 件 。 同 时 我 们 也 发 现 大 
段 只 包含 拉丁 字母 的 部 分 ， 看 上 去 就 像 未 知 语言 的 字符 串 。 

0x1A 字 节 出 现 得 频率 很 高 ， 我 们 可 以 尝试 解密 这 个 文件 ， 先 假设 它 是 用 最 简单 的 异 
或 加 密 。 如 果 我 们 用 0Ox1A 和 Hiew 中 的 每 个 字 节 异 或 ， 我 们 就 能 看 见 熟 悉 的 英文 字 
符 串 : 


596 


基本 的 异 或 加 密 





与 单个 国定 字 节 姬 或 是 最 简单 的 可 能 的 加 蜜 方法 ， 有 时 可 能 会 碰 到 。 


现在 我 们 理解 了 为 什么 0x1A 出 现 的 频率 如 此 高 了 : 因为 文件 包含 了 大 量 0 字 节 ， 加 
密 之 后 替换 成 了 0x1A 。 


ied od Hs Pn 我 们 可 以 尝试 0 到 255 之 间 的 每 一 个 常量 ， 在 
解密 文件 中 寻找 熟悉 的 内 容 ，256 就 不 行 了 。 


更 多 关于 Norton Guide 文 件 格式 内 容 : http://go.yurichev.com/17317 


84.1.1 J% 


45. 3 JE fü] BY Zo BAG A ARE XY] PE LC Je EAE 38548 BE dE). T, 
是 我 用 Wolfram Mathematica 1045 2-4 ° 


In[1]:= input = BinaryReadList["X86.NG"]; 

In[2]:= Entropy[2, input] // N 

Out[2]= 5.62724 

In[3]:= decrypted = Map[BitXor[#, 16^^1A] &, input]; 

In[4]:= Export["X86_decrypted.NG", decrypted, "Binary"]; 

In[5]:= Entropy[2, decrypted] // N 

Out[5]= 5.62724 

In[6]:= Entropy[2, ExampleData[{"Text", "ShakespearesSonnets"}] ] 
// N 


Out[6]= 4.42366 
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RA) HR Ao R 


我 所 做 是 加 载 文件 ， 获 取 它 的 炉 ， 解 密 保 存 之 后 再 次 获取 它 的 炉 ( 竞 然 是 一 样 

&j ! )。Mathematica 也 提供 一 些 著 名 了 英文 文本 来 分 析 。 所 以 我 获取 了 莎士比亚 十 
四 行 诗 的 炉 ， 它 很 接近 我 们 所 分 析 的 文件 。 我 们 分 析 文 件 包 含 了 美文 句子 ， 和 莎 士 
ETAIT 8978 SEU o A A T HAAR LAA AA FF AY Ho 

然而 当 文件 使 用 大 于 一 个 字 节 来 异 或 时 就 不 可 信 了 。 


我 们 分 析 的 文件 可 以 在 这 里 下 载 到 http://go.yurichev.com/17350 


XT XE e UL A 


Wolfram Mathematica 使 用 e( 自 然 对 数 ) 为 基数 计算 ，UNIX 的 ent 工 具 使 用 2 为 基数 。 
Pp VAL d ap 13523079 X ^ Pr Mathematica i 41 89 2$ X feent —4€ © 


84.2 sx ih] BAS AI RAB 


如 果 异 或 加 密 的 时 候 使 用 了 更 长 的 模式 ， 比 如 ，4 字 节 模 式 ， 那 么 也 很 容易 发 现 。 
下 面 这 个 例子 是 kernel32.dll 文 件 的 起 始 部 分 (Windows Server 2008 32 位 版 本 ) : 


| 





下 面 是 使 用 4 字 节 密 负 “加密 ”的 结果 : 
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基本 的 异 或 加 蜜 


MITT kernel32.diLencrypted 


f. TIE 


c4aycMayc paycMaycMay 
Esso cite | 


Bel lt xlgaþlga : 
Hga pel d lapycMaycg$ rc 上 pe Bv|enarcharcla 83- Bem MaTCMaTc 
a*cKa cKa*cMaycMa 


inayc Ma C 


cMa kc "dk naTbMarcNMqTCMaTCMqTC TcbsTdR c= cub k x E cadycM di TCMaTCN 
c| aycMaycMaycMaycMayc rcMaycbT rc haycMaycMaycM la “c| rcieycheycheycheychercierceg 
CMake Mayc cM, 3|B»agcAqgcMa, Mal cMagcMag cMarcM m EIS rs Mal cMa! CMal ch rm 
rclortos, cB HreMarcMa! cMa p cMagcMagcMagc pay !MagcMagcMag cMag cM lay cMagcMagcMagcMagcMagcMagcMag cMagcH 
apcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMaycMagcMagcMagcMagycMagcMagcMagcMagcMagcMagcMagcMaygc 
MagcMagcMag cM MagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMag cMag cMagcMag cMag cMa 
T Lj T Li F Li T T Li Lj T Li T T Li T H Li T T Li T T T 
cMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMaycMagcMagcMaycMagcMagcMagcMagcMagcMagcMagycMagcMagcMa 
ycMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMag cMagcMagcMag cMag cMag cMagcMagcMagcMag cMagcMag cM 
aya tile tar mg MaycMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagc 
MagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMag cMagcMagcMag cMa 
Li T T T T T T Li T T T T T T T T T Li T T T T T T T 
cMagcMagcMagcMagcMagcMag cMag cMagcMagcMag cMag cMag cMagcMagcMag cMag cMag cMag cMag cMag cMag cMag cMag cMag cMa 
ycMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMag cMag cMag cM 
agcMagcMagcMagcMagcMagcMagcMagcMag cMag cMag cMagcMag cMag cMagcMagcMag cMag cMagcMag cMagcMag cMag cMagcMagc 
MagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMag cMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMar 
hia MagcMagcMag cMagcMag cMag cMagcMag cMag cMag cMagcMag cMagcMag cMag cMagcMag cMag cMagcMag cMag cMag cMag cMa 
lapycMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMaycMagycMagcMagycMagycMagcMay cMag cM 
He MagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMag cMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagsc 
MagcMagcMagcMagcMagcMagcMagcMag cMay cMagcMagcMaycMagcMag cMaycMagcMaycMag cMagcMagcMagcMagcMagy cMagcMay 
cMagcMagcMagcMagcMag cMagcMagcMagcMagcMag cMagcMagcMagcMagcMag cMag cMagcMagcMagcMagcMagcMag cMagcMag cMa 
Hen ign ai lagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMag cMagcMag cMag cMag cM 
CMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaT< 
dh 4aTCMaTCMaTCMaTCMaTCMayCMaTCMaTCMaTCMaTCMaTCMagCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaT 
cMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMa 
ycMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMagcMag cMagcMag cMag cMag cMag cMag cMag cMag cMagcMag cMag cMag cM 
afTCMaTCMaTCcMaTCMaTCMaTCMaTCMaTCMaTCcMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTCMaTC 





容易 发 现 有 四 个 字符 重复 出 现 。 事 实 上 ，PE 文 件 头 有 许多 0 字 节 填充 区 ， 这 也 是 密 
能 被 看 出 来 的 原因 


下 面 是 十 六 进 制 形 式 PE 头 的 开头 : 


[T Hiew: kernel32.dil 

| — C:Mtm = = 
70D600E0: ) e = )0 00-50 45 
.700600F0: 8 A 3-00 00 00 00-00 00 人 
. 70060100: )1 09 00-00 00 0D 00-00 

. 70060110: 93 32 01 00-00 00 01 00-00 

. 70060120: : - ee-e6 

. 70060130: 6 00 01 00-00 00 00 00-00 
70060140: ; 00-03 00 40 01-00 

. 70060150: ) MU ee-ee 
.70060160: 70 FF 08 00-8 ) 00 00-24 A 
70060170: NN MN DUE 
.70060180: 00 00 00 00.00 00 00 00 

. 70060190: 37 0 0 - )00 00- 

. 70060140: 00 00 00 € 0 00 00 9 
70060180: 9 35 6 0 € 
700601C8: 

. 700601D0: 


. 700601E0: 
700601F0: 

. 70060200: 
. 70060210: 
70060220: 
0060230: 


)60260: 
060270: 
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容易 发 现 密 钥 是 这 四 个 字 节 : 8C 61 D3 63 . 使 用 这 个 信息 解密 nS o 
因此 记 住 PE 文件 的 这 些 特性 是 很 重要 的 : 1) PE 头 有 许多 0 字 节 填充 区 ; 2) 
4096 字 节 ， 所 有 的 PE 区 段 用 0 补 齐 ， i 所 有 的 区 段 后 出 现 很 长 的 0 字 
填充 区 。 

一 些 其 他 的 文件 格式 可 能 包含 长 0 字 节 填充 区 ， 对 于 科学 和 工程 软件 文件 来 说 非常 
典型 。 


想 自己 分 析 这 些 文件 可 以 到 这 里 下 载 : http://go.yurichev.com/ 


84.2.1 练习 


作为 一 个 练习 尝试 解密 下 面 这 个 文件 。 当 然 ， 密 钥 已 经 改 
变 。http://go.yurichev.com/17353 


第 八 十 五 章 


Millenium 游戏 存档 文件 


"Millenium Return to Earth" 是 一 款 很 老 的 DOS 游 戏 (1991) > 


修建 船只 ， 在 其 他 星球 上 装备 它们 等 等 。 


就 像 其 他 游戏 一 样 ， 你 可 以 将 游戏 状态 存 入 一 个 文件 中 。 


咱们 来 看 看 能 不 能 找到 点 什么 


下 面 这 是 游戏 中 的 一 处 矿井 。 有 些 星球 的 矿井 工作 更 快 ， 也 有 工作 慢 的 


置 也 不 同 。 来 看 看 现在 底下 埋 的 是 什么 样 的 资源 : 


DOSBox 0.74, Cpu speed: 3000 cycles, Frameskip 0, Program: ze 


AUi E Jud. Moon 


KALE m/e 


eens 
Oryoen 
Water 
Mi TROGEN 
Me THANE 
与 UL HU 
Titanium 
Aluminium 
Copper 
SILICA 
| 愉 口 口 
-ENWV -- 
CHROMI UM 
PLATINUM 
mmm Ueanium 


oad 
^ "C. 


我 保存 了 游戏 状态 。 存 档 文件 大 小 为 9538 字 节 。 


我 在 游戏 中 等 了 " 几 天 "， 现 在 我 们 可 以 从 矿 并 中 得 到 更 多 的 资源 : 





你 可 以 挖掘 矿产 资源 ， 


o 资源 的 设 


DOSBox 0.74, Cpu speed: 3000 cycles, Frameskip 0, Program: 20 


UU LT UL Moon 
is KALLE "T 


HyuDpRrocen 
ORryYoen 
WATER 
Mi TROGEN 
METHANME 
GULPHUR 


TITOmIUm 
站 LUmIDmIUm 


Ennmamium 
ALATI MUM 
mA RAMmI um 





我 再 次 保存 了 游戏 状态 。 
下 面 我 们 使 用 简单 的 DOS/Windows FC 工具 来 比较 二 进 制 存档 文件 。 


.> FC /b 2200save.i.v1 2200SAVE.I.V2 


Comparing files 2200save.i.v1 and 2200SAVE.I.V2 
00000016: OD 04 
00000017: 03 04 
0000001C: 1F 1E 
00000146: 27 3B 
00000BDA: OE 16 
00000BDC: 66 9B 
00000BDE: OE 16 
00000BEO: OE 16 
00000BE6: DB 4C 
00000BE7: 00 01 
00000BE8: 99 E8 
00000BEC: A1 F3 
0O0000BEE: 83 C7 
00000BFB: A8 28 
00000BFD: 98 18 
00000BFF: A8 28 
00000CO1: A8 28 
00000CO7: D8 58 
00000C09: E4 A4 
00000COD: 38 B8 
00000COF: E8 68 


这 里 的 输出 并 不 完整 ， 有 许多 不 同 之 处 ， 我 截取 了 结果 来 展示 最 有 趣 的 部 分 


在 第 一 个 状态 中 ， 我 有 14 个 单位 的 氢气 ，102 个 单位 的 氧气 。 在 第 二 个 状态 中 则 分 
别 是 22 和 155 个 单位 。 如 果 这 些 值 保 存 到 了 存档 文件 中 ， 我 们 会 看 到 差异 。 的 确 如 
此 ， 较 老 存 档 的 0OXBDA 处 的 值 为 0x0E(14), 而 在 新 存档 中 则 变 成 了 0x16(22)。 这 可 
能 是 氮气 。 同 样 ， 老 存档 的 0XBDC 处 的 值 为 0x66(102)， 新 存档 中 值 变 为 
Ox9B(155) « pelear borde M LE 
解 更 多 信息 的 请 戳 这 


下 面 是 在 Hiew 中 显示 的 新 存档 文件 ， 我 将 游戏 中 与 资源 相关 的 值 标记 了 出 来 : 





我 检查 后 确认 它们 是 16-bit 值 ， 不 是 16- 什么 奇怪 的 东西 ，16-bit 的 


DOS 软 件 int 类 型 为 16 比 特 。 
下 面 来 验证 咱们 的 假设 吧 。 我 在 第 一 个 位 置 (氢气 的 位 置 ) 写 入 1234(0x4D2): 


94 9B 00-16 
: [00 00 r3 00-C7 


Hworocen 


ORYyocen 
WATER 

Ni TROGEN 
Me THANE 
GULPHUPR 
TITRmIUm 
[dL Limi mium 


CHRDmI um 
ee num 
TI mLimmn um 





现在 我 们 尝试 让 这 个 游戏 更 快 结 束 ， 把 值 设 为 最 大 : 


ER 
ORryoen 
WATER 
Ni TROCENM 


[dL Limi mi um 
COPPER 
GILI CA 
|Ron 

SI LYER 
CHROMI um 
PLATINUM 

TI as Uranium 





Ta 


我 在 游戏 中 跳 过 了 " 几 天 "， 结 果 有 些 资 源 变 少 了 : 


HyDpRocen 
ORryocen 
WATER 

Ni TROCENM 
METHANE 
GULPHUR 
Titanium 
ALumintum 
Copper 
GILI CA 

Pon 

5I LYVER 
CHRDmI um 
PLATINUM 
»;UrRmAnium 





溢出 发 生 了 。 游 戏 开 发 者 可 能 没 考虑 到 会 出 现 这 么 多 的 资源 的 情况 ， 没 有 设置 溢出 
检查 ， 但 游戏 中 的 矿井 仍然 在 工作 ， 资 源 在 增加 ， 所 以 导致 了 溢出 。 我 想 我 不 应 该 
HR A RAE © 

可 能 大 量 的 数值 都 保存 在 了 这 个 文件 中 。 

这 就 是 非常 简单 的 游戏 欺骗 方法 。 高 分 文件 可 以 通过 这 样 打 补 丁 轻松 得 到 。 

更 多 关于 文件 和 内 存 快 照 的 比 对 : 63.4 第 681 页 


PME 


Oracle RDBMS: .SYM-files 


ded a 程 出 于 某 种 原因 崩溃 时 ， 会 将 许多 信息 写 入 日 志文 件 ， 
括 栈 回 湖 ， 就 像 这 


----- Call Stack Trace ----- 


calling call entry argument 
values in hex 
location type point (? means du 


bious value) 


_kqvrow( ) 00000000 
_opifch2()+2729 CALLptr 00000000 23D4B91 
4 E47F264 1F19AE2 

EB1C8A8 1 
_kpoal8()+2832 CALLrel _opifch2() 89 5 EB1 
CC74 
_opiodr()+1248 CALLreg 00000000 5E 1C EB1F 
0A0 
_ttcpip()+1051 CALLreg 00000000 5E 1C EB1F 
0AO0 0 
_opitsk()+1404 CALL??? 00000000 C96C040 5E 


EB1F0AO © EB1ED30 
EB1F1CC 53E5 
2E © EB1F1F8 


_opiino( )+980 CALLrel _opitsk() 0 0 
_opiodr()+1248 CALLreg 00000000 3C 4 EB 
1FBF4 
_opidrv()+1201 CALLrel _opiodr() 3C 4 E 
B1FBF4 0 
_sou20()+55 CALLrel _opidrv() 3C 4 
EB1FBF4 
_opimai_real()+124 CALLrel _opimai_real() 2 EB1 
FC2C 
_OracleThreadStart@ CALLrel _opimai() 2 EB1FF6 
C 7C88A7F4 EB1FC34 0 
4()+830 EB1FD04 
77E6481C CALLreg 00000000 E41FF9C 0 0 
E41FF9C © EBIFFC4 
00000000 CALL??? 00000000 


4 Oracle RDBMS 可 执行 文件 肯定 拥有 某 种 调试 信息 ,或 者 带 有 符号 信息 (或 者 类 
似 信息 ) 的 映射 文件 。 


Oracle RDBMS SYM-files 


WindowsNT Oracle RDBMS D y 包含 在 具有 .SYM 扩 展 名 的 文件 中 ， 具 有 专 
门 的 格式 。( 平 文 文件 挺 好 的 ， 但 是 员外 解析 ， 因 此 获取 速度 更 慢 ) 


咱们 来 看 看 能 不 能 理解 它 的 格式 。 我 选 了 最 短 的 orawtc8.sym 文 件 ， 来 自 于 Oracle 
8.1.7 版 本 orawtc8.dll 文件 。 


下 面 是 Hiew 加 载 后 的 效果 : 


Hiew: orawtci.sym 


ESTA or. ; 





通过 与 其 他 .SYN 文 件 的 对 比 ， 我 们 可 以 快速 发 现 "OSYM" 总 是 头 (和 尾 )， 因 此 这 可 
能 就 是 文件 的 标志 。 


同时 也 可 以 看 出 ， 文 件 格式 是 : OSYM+ 一 些 二 进 制 数据 + 以 0 为 界定 符 的 字符 囊 
+OSYM。 这 些 字符 串 显 然 是 函数 和 全 局 变量 名 。 


我 标记 了 OSYM 标 志和 字符 串 : 
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Oracle RDBMS SYM-files 


Hiew: orawtcB. sym 





| 
咱们 来 看 看 。 我 在 Hiew 中 标记 了 整个 字符 串 块 (除了 末尾 的 OSYM)， 然 后 把 它 放 进 
单独 的 文件 中 。 然 后 我 运行 UNIX 的 strings 和 wc 工 具 分 析 字 符 串 


strings strings block | wc -1 
66 


有 66 个 文本 字符 囊 ， 请 记 住 这 个 数字 。 


可 以 这 么 说 ， 常 规 情况 下 ， 数 量 值 会 被 存储 在 一 个 单独 的 二 进 制 文件 中 。 的 确 也 是 
如 此 ， 我 们 可 以 在 文件 开头 找到 这 个 66 数 字 (0x42)， 就 在 OSYM 这 个 标志 右边 : 


$ hexdump -C orawtc8.sym 
00000000 4f 53 59 4d 42 00 00 00 00 10 00 10 80 10 00 10 |OSY 


| 
00000010 fO 10 00 10 50 11 00 10 60 11 00 10 cO 11 00 10 |... 
Par eum | 
00000020 dO 11 00 10 70 13 00 10 40 15 00 10 50 15 00 10 |... 
pcc cR 
00000030 60 15 00 10 80 15 00 10 a0 15 00 10 a6 15 00 10 |`.. 


当然 ， 这 里 的 0x42 不 是 一 个 字 节 ， 更 像 是 一 个 32 比 特 的 值 ， 小 端 ， 后 面 至 少 跟着 3 
个 0 字 节 。 

为 什么 我 认为 是 32 位 呢 ? A A Oracle RDBMS 的 符号 文件 比较 大 。 主 要 的 
oracle.exe 可 执行 文件 (10.2.0.4 版 本 ) 的 oracle.sym 文 件 包 含 0x3A38E(238478) 个 符 
号 。 一 个 16 位 的 值 在 这 里 明显 不 够 。 
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Oracle RDBMS SYM-files 


我 检查 了 其 他 .SYM 文 件 ， 证 实 了 我 的 猜想 : OSYM 符 号 后 面 的 32 位 值 总 表示 文件 
字符 串 的 数量 。 


这 对 于 所 有 的 二 进 制 文件 来 说 几乎 是 通用 的 : 文件 头 包 含 标 志和 文件 其 他 信息 。 


现在 我 们 来 进一步 调查 二 进 制 块 是 什么 。 再 次 使 用 Hiew， 我 把 从 块头 8 个 字 节 (32 位 
计数 值 后 面 ) 开 始 一 直到 字符 串 块 结尾 的 内 容 放 入 单独 的 文件 中 。 


在 Hiew 中 看 看 这 个 二 进 制 块 : 


有 一 个 明显 的 规律 。 
我 用 红线 划分 了 这 个 块 : 





E E REO Eeo* o WovsdpoedweoE E E E wb 


Hiew, 就 像 其 他 的 十 六 进 制 编辑 器 一 样 ， 每 行 显示 16 个 字 节 。 所 以 规律 很 容易 看 出 
来 : 每 行 有 4 个 32 位 的 值 。 

这 个 规律 容易 看 出 来 的 原因 是 其 中 的 一 些 值 (地 址 0x104 之 前 ) 总 是 具有 0x1000xxxx 
的 格式 ， 以 0x10 和 0 字 节 开始 。 其 他 值 (从 地 址 0x108 开 始 ) 都 是 0x0000xxxx 的 格式 ， 
总 是 以 两 个 0 字 节 开始 。 


我 们 把 这 个 块 当 作 32 位 值 的 数组 dump 出 来 : 
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$ od -v -t x4 binary block 


0000000 
0000020 
0000040 
0000060 
0000100 
0000120 
0000140 
0000160 
0000200 
0000220 
0000240 
0000260 
0000300 
0000320 
0000340 
0000360 
0000400 
0000420 
0000440 


0000460 
0000500 
0000520 
0000540 
0000560 
0000600 
0000620 
0000640 
0000660 
0000700 
0000720 
0000740 
0000760 
0001000 
0001020 


这 里 有 132 个 值 ， 也 就 是 66*2。 或 许 每 一 个 符号 有 两 个 32 位 的 值 ， 或 者 有 两 个 数组 


10001000 
10001160 
10001540 
100015a0 
100015b8 
100015d0 
10001766 
100017d0 
10002000 
10002010 
10002020 
10002030 
10002040 
10002050 
1000210c 
10003008 
100030a0 
00000012 
00000038 


0000005a 
00000088 
000000b6 
000000f0 
00000121 
00000146 
000001a9 
000001fb 
0000023d 
00000287 
000002dc 
0000033e 
000003ae 
000003ce 


呢 ?咱们 接着 看 。 


从 0x1000 开 始 的 值 可 能 是 地 址 。 毕 竞 这 是 dll 的 .SYM 文 件 ，win32 DLL 默认 的 基 址 


10001080 
100011c0 
10001550 
100015a6 
100015be 
100015e0 
1000176c 
100017e0 
10002004 
10002014 
10002024 
10002034 
10002044 
100020d0 
10002120 
1000300c 
100030a4 
0000001b 
00000040 


00000064 
00000096 
000000c0 
00000107 
0000012a 
00000153 
000001c1 
00000207 
0000024e 
00000297 
000002f0 
0000035d 
000003b6 
000003dc 


100010f0 
100011d0 
10001560 
100015ac 
100015c4 
100016b0 
10001780 
10001810 
10002008 
10002018 
10002028 
10002038 
10002048 
100020e4 
10003000 
10003098 
00000000 
00000025 
00000048 


0000006e 
000000a4 
000000d2 
00000110 
00000132 
00000170 
000001de 
0000021b 
00000269 
000002b6 
00000304 
0000037a 
000003be 
000003e9 


10001150 
10001370 
10001580 
100015b2 
100015ca 
10001760 
100017b0 
10001816 
1000200c 
1000201c 
1000202c 
1000203c 
1000204c 
100020f8 
10003004 
1000309c 
00000008 
0000002e 
00000051 


0000007a 
000000ae 
000000e2 
00000116 
0000013a 
00000186 
000001ed 
0000022a 
00000277 
000002ca 
00000321 
00000395 
000003c6 
000003f8 


是 0x10000000， 代 码 通常 从 0x10001000 开 始 。 


我 用 IDA 打 开 orawtc8.dll 文 件 时 发 现 基 址 并 不 相同 ， 不 过 没关系 ， 第 一 个 函数 是 : 


.text:60351000 sub 60351000 proc near 
. text :60351000 
. text :60351000 arg_0 
.text:60351000 arg 4 
.text:60351000 arg 8 
. text : 60351000 


dword ptr 8 
dword ptr OCh 
dword ptr 10Ch 


. text: 60351000 push ebp 

. text :60351001 mov ebp, esp 

. text: 60351003 mov eax, dword_60353014 

. text: 60351008 cmp eax, OFFFFFFFFh 

. text :6035100B jnz short loc_6035104F 

. text :6035100D mov ecx, hModule 

. text :60351013 xor eax, eax 

.text:60351015 cmp ecx, OFFFFFFFFh 

.text:60351018 mov dword 60353014, eax 

.text:6035101D jnz short loc 60351031 

.text:6035101F call sub 603510F0 

.text:60351024 mov ecx, eax 

.text:60351026 mov eax, dword 60353014 

.text:6035102B mov hModule, ecx 

.text:60351031 

.text:60351031 loc 60351031: ; CODE XREF: sub 
_60351000+1D 

. text :60351031 test ecx, ecx 

.text:60351033 jbe short loc 6035104F 

.text:60351035 push offset ProcName ; "ax reg" 

. text :6035103A push ecx ; hModule 

. text :6035103B call ds:GetProcAddress 


味 ，"ax_reg" 字 符 串 看 起 来 很 熟悉 。 它 的 确 是 字符 串 块 的 第 一 个 字符 串 。 所 以 函数 
名 是 "ax_reg"。 


第 二 个 函数 是 : 


.text:60351080 sub 60351080 proc near 
. text :60351080 
.text:60351080 arg 0 
.text:60351080 arg 4 
. text :60351080 


dword ptr 8 
dword ptr  OCh 


.text:60351080 push ebp 

. text : 60351081 mov ebp, esp 
.text:60351083 mov eax, dword 60353018 
.text:60351088 cmp eax, OFFFFFFFFh 
.text:6035108B jnz short loc 603510CF 

. text :6035108D mov ecx, hModule 
.text:60351093 xor eax, eax 
.text:60351095 cmp ecx, OFFFFFFFFh 
.text:60351098 mov dword 60353018, eax 
.text:6035109D jnz short loc 603510B1 
.text:6035109F call sub 603510F0 
.text:603510A4 mov ecx, eax 
.text:603510A6 mov eax, dword 60353018 

. text :603510AB mov hModule, ecx 
.text:603510B1 

.text:603510B1 loc 603510B1: ; CODE 
XREF: sub 60351080-41D 

.text:603510B1 test ecx, ecx 
.text:603510B3 jbe short loc 603510CF 
.text:603510B5 push offset aAx unreg ; "ax 
_unreg" 

. text: 603510BA push ecx ; hM 
odule 

. text :603510BB call ds:GetProcAddress 


"ax_unreg" 字 符 串 也 是 字符 串 块 的 第 二 个 字符 串 ! 第 二 个 部 数 的 开始 地 址 是 
0x60351080， 二 进 制 块 的 第 二 个 值 是 10001080. 因 此 就 是 这 个 地 址 ， 但 对 于 DLL 加 
上 了 默认 基地 址 


现在 可 以 快速 的 检查 然后 确定 数组 开始 的 66 个 值 (也 就 是 数组 前 一 半 ) 只 是 DLL 中 的 

函数 地 址 ， 包 括 一 些 标签 等 等 。 那 么 另 一 半 是 什么 呢 ? 剩余 的 66 个 值 都 是 以 0x0000 
开始 的 ， 看 上 去 范围 是 [0...0X3FB8]。 并 且 他 们 看 上 去 不 像 位 域 : 序列 的 数量 在 增 

长 。 最 后 一 个 十 六 进 制 数字 看 上 去 是 随机 的 。 因 此 不 像 是 地 址 (如 果 它 是 4 字 节 ，8 

字 节 ，16 字 节 则 可 除 尽 ) 


我 们 问 问 自己 吧 : Oracle RDBMS 的 开发 者 还 会 在 文件 中 保存 什么 呢 ? 随便 猜 猜 : 
可 能 是 文本 字符 串 (函数 名 ) 的 地 址 。 可 以 迅速 验证 这 一 点 ， 是 的 ， 每 个 数字 代表 的 
就 是 字符 串 在 这 个 块 中 第 一 个 字符 的 位 置 。 

就 是 这 样 ， 完 成 了 ! 

我 写 了 一 个 工具 将 这 些 .SYM 文 件 转换 到 IDA 脚 本 中 ， 然 后 我 可 以 加 载 .IDC 脚 本 ， 设 
BREL: 


#include <stdio.h> 
#include <stdint.h> 
#include <io.h> 
#include <assert.h> 
#include <malloc.h> 
#include «fcntl.h» 
#include <string.h> 
int main (int argc, char *argv[]) 
{ 
uint32_t sig, cnt, offset; 
uint32_t *d1, *d2; 
int h, i, remain, file_len; 
char zor 
uint32 t array size in bytes; 
assert (argv[1]); // file name 
assert (argv[2]); // additional offset (if needed) 
// additional offset 
assert (sscanf (argv[2], "9X", &offset)--1); 
// get file length 
assert ((h=open (argv[1], _O RDONLY | _O BINARY, 0))!--1 
); 
assert ((file_len=lseek (h, ©, SEEK END))!--1); 
assert (lseek (h, 0, SEEK SET)!--1); 
// read signature 
assert (read (h, &sig, 4)--4); 
// read count 
assert (read (h, &cnt, 4)==4); 
assert (sig--0x4D59534F); // OSYM 
// skip timedatestamp (for 11g) 
// lseek (h, 4, 1); 
array size in bytes-cnt*sizeof(uint32 t); 
// load symbol addresses array 
di-(uint32 t*)malloc (array size in bytes); 
assert (d1); 
assert (read (h, d1, array size in bytes)--array size in 
bytes); 
// load string offsets array 
d2-(uint32 t*)malloc (array size in bytes); 
assert (d2); 
assert (read (h, d2, array size in bytes)--array size in 
bytes); 
// calculate strings block size 
remain-file len-(8-4)-(cnt*8); 
// load strings block 
assert (d3=(char*)malloc (remain)); 
assert (read (h, d3, remain)--remain); 
printf ("#include <idc.idc>\n\n"); 
printf ("static main() {\n"); 
for (i=0; i«cnt; i++) 
printf ("\tMakeName(0x%08X, \"%s\");\n", offset 
+ di[i], &d3[d2[i]]); 
printf ("}\n"); 
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close (h); 
free (di); free (d2); free (d3); 


下 面 是 它 工作 的 一 个 例子 : 


#include <idc.idc> 

static main() { 
MakeName(0x60351000, "_ax_reg"); 
MakeName(0x60351080, " ax unreg"); 
MakeName(0x603510F0, " loaddll"); 
MakeName(0x60351150, " wtcsrin0O"); 
MakeName(0x60351160, " wtcsrin"); 
MakeName(0x603511CO, " wtcsrfre"); 
MakeName(0x603511DO, " wtclkm"); 
MakeName(0x60351370, " wtcstu"); 

=} 


我 使 用 的 例子 可 以 在 这 里 找到 : beginners.re 
咱们 来 试 试 64 位 的 Oracle RDBMS。 相 应 的 ， 地 址 应 该 为 64 位 ， 对 么 ? 
8 字 节 的 规律 看 上 去 更 加 明显 了 : 





是 的 ， 所 有 的 表 含有 64 位 的 元 素 ， 甚 至 是 字符 囊 的 偏 移 。 现 在 标志 也 变 成 了 
OSYMAM64， 猜 测 是 用 于 区 分 目标 平台 的 。 


就 是 这 样 了 。 连 接 Oracle RDBMS-SYM 文 件 我 用 的 函数 的 库 : GitHub 
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第 八 十 七 章 


Oracle RDBMS:.MSB-files 


这 个 二 进 制 文件 包含 了 错误 信息 和 对 应 的 错误 码 。 我 们 来 理解 它 的 格式 然后 找到 
unpack 方 法 。 


cee 文本 格式 的 Oracle RDBMS 错 误 信 息 ， 因 此 我 们 可 以 比 对 文本 和 pack 后 的 二 


进 制 文 件 。 


下 面 是 ORAUS.MSG 文 本 文件 的 开头 ， 一 些 无 关 紧 要 的 注释 已 经 去 掉 : 


00000, 
00001, 
00017, 
00018, 
00019, 
00020, 
00021, 
itch session" 
00022, 
00023, 


00000, 
00000, 
00000, 
00000, 
00000, 
00000, 
00000, 


00000, 
00000, 


"normal, successful completion" 

"unique constraint (%s.%s) violated" 

"session requested to set trace event" 

"maximum number of sessions exceeded" 

"maximum number of session licenses exceeded" 
"maximum number of processes (%s) exceeded" 
"session attached to some other process; cannot sw 


"invalid session ID; access denied" 
"session references process private memory; cannot 


detach session" 


00024, 


00000, 


"logins from more than one process not allowed in 


single-process mode" 


00025, 
00026, 
00027, 
00028, 
00029, 
00030, 
00031, 


00000, 
00000, 
00000, 
00000, 
00000, 
00000, 
00000, 


"failed to allocate %s" 

"missing or invalid session ID" 
"cannot kill current session" 
"your session has been killed" 
"session is not a user session" 
"User session ID does not exist." 
"session marked for kill" 


第 一 个 数字 是 错误 码 ， 第 二 个 可 能 是 附加 的 标志 ， 我 不 太 确定 。 
现在 我 们 来 打开 ORAUS.MSB 二 进 制 文件 ， 找 到 这 些 文 本 字符 串 。 这 里 有 : 
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TT Mew: oraus.msb 
Ci\tap\oraus.nsb DEAD -------- 09001369[Hiev 8.02 (COSEN 
B DB NN re 38 
45 normal, successful completionunique constraint (%s.%s) viol 
atedsession requested to set trace eventmaximum number of sessions exceededmaxiaum number of sessio 
n licenses exceededmaximum number of processes (%s) exceededsession attached to some other process; 
cannot switch sessioninvalid session ID; access deniedsession references process private memory; cC 
annot detach pe from more than one process not allowed in single-process mode Ps 
eg BG 38 JGO re i .o NB [B8 wGfailed to allocate Xsmissing o 
r invalid session IDcannot kill current sessionyour session has been killedsession is not a user se 
ssionUser session ID does not exist.session marked for killinvalid session migration passwordcurren 
t session has empty migration passwordcannot %s in current PL/SQL sessionLICENSE MAX_USERS cannot b 
e less than current number of usersmaximum number of recursive SQL levels (%s) exceeded 
BB% D& i 7 ¢ Hl ) 3+ 82 a3 bg *Bcannot switch to a sessio 
n belonging to a different server groupCannot create session: server group belongs to another usere 
rror during periodic actionactive time limit exceeded - call abortedactive time limit exceeded - se 
ssion terminatedUnknown Service name Xsremote operation failedoperating system error occurred while 
obtaining an enquevetimeout occurred while waiting for a resourcemaximum number of enqueue resourc 
es (%s) exceeded a5 » 6 a 7 r 8 上 9 oS: 96; qg< Qc. Ed aximum number 
of enqueves exceededresource busy and acquire with NOWAIT specified or timeout expiredmaxiaum numt 
er of DML locks exceededDDL lock on object ‘%s.%s° is already held in an incompatible modemaximua r 
umber of temporary table locks exceededDB_BLOCK SIZE must be Xs to mount this database (not %s)maxi 
aum number of DB FILES exceededdeadlock detected while waiting for resourceanother instance has a d 
ifferent DML_LOCKS setting Es D0? z2z@ 6A FC . 0D OGE 1BF  WOG {EH 
ma YEOML full-table lock cannot be acquired; DML LOCKS is maximum number of log files exceeded 
%sobject is too large to allocate on this 0/S (%s,%s,%s)initialization of FIXED DATE failedinvalid 
value Xs for parameter Xs; must be at least Xsinvalid value Xs for parameter Xs, must be between 4 
s and %scannot acquire lock -- table locks disabled for X%scommand %s is not validprocess number au 
t be between 1 and Xsprocess “Xs” is not active GI P3 ~K b L 7M tn 4 0 
SBP mo BER hes wT ( EBcommand Xs takes between %s and 4s argument(s)no process has 





可 以 看 到 ， 这 些 文本 字符 事 之 间 (包括 ORAUS MSG TE HH MAE) Td 
进 制 值 。 通 过 快速 调查 分 析 可 发 现 二 进 制 文件 的 主要 部 分 按 0xX200(512) 字 节 的 大 小 
进行 分 害 


咱们 来 看 看 第 一 个 块 的 内 容 : 


"Hew: oraus-msb 
| C:\tm 
0000140 08-80 00 B 00-61 
00001410: ) € 3 08-12 00 00 6 ( 00-88 
00001420: 28 00-F5 00 15 = | 01-16 
060001430: ) € 7 00-00 00 : 9 00 00-BC : ; 
00001440: 0 82-6E 6F 5D-61 6 20-73 6 Bnormal, succ 
00001450: - 73 66-75 : é 0 6C-65 74 > essful completio 
00001460: 6 6E 69-71 6 -63 6F 6E 73-74 61 6 nunique constrai 
060001470: 6 D 28-25 73 2E 25-73 29 20 76-69 6F 6 nt (Xs.Xs) viola 
00001480: 4 65 64 73-65 9-6F 6 72-65 5 tedsession reque 
ð: 64-20 6 0-73 65 74 20-74 6 sted to set trac 
866614AB: 6 65 76-65 6 6D -6 9 6D-75 6 5 e eventmaximum n 
000014880: 5 6 65-72 20 6F 66- 65 73-73 69 6 umber of session 
0900014CO0: 3 65 78-63 65 65 64-65 6 61-78 5 s exceededmaximu 
00001400: 60 20 6E 75-60 6 -20 66 20-73 65 73 73 m number of sess 
000014E0: 6 6 ð- 59 63 65-6 65 73-20 ion licenses exc 
000014F0: 65 65 64 65-64 6 -69 60-20 6 eededmaxiaum num 
00001500: 20 - 6 )- 6 65-73 b ber of processes 
00001510: , 9 > 65 -63 65 64-65 64 73 65 Xs) exceededse 
00001520: 59 6F- 6 - 61 63 68-65 ) 7 ssion attached t 
060001530: 6 3 6F-6D 65 2 - 65 72-20 © some other pro 
00001548: 3 6 73-38 -6E 6 74-20 9 cess; cannot swi 
00001550: 20-73 6F 6E 69-6E 76 61 6 tch sessioninval 
00001560: 69 6 B 73-65 69-6F 6E 20 49-44 38 20 id session ID; a 
060001570: 63 73-73 20 & -6E 69 64-73 ccess deniedsess 
00001580: SE 20-72 66 6 63-65 ) 70 ion references p 
00001590: 6 65-73 69 76 61-74 65 rocess private m 
00001540: 5D 6F 72-79 3 ( 6 6F-74 20 6 emory; cannot de 
00001580: 61 63 68-20 6 - 5 6 6 9 tach sessionlogi 





~ 第 一 条 错误 信息 文本 。 同时 也 看 到 错 1 吴 信 息 之 间 没 有 0 字 节 。 这 意味 
ZA Anull 雪 尾 的 C 字 符 串 。 因此 ， 每 一 条 错误 信息 的 长 度 值 肯 定 以 某 种 形式 加 密 
E 我 们 再 来 找 找 错误 码 。ORAUS.MSG 文 件 这 样 开始 : * 1> 17(0x11),18 
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(0x12), 19 (0x13), 20 (0x14), 21 (0x15), 22 (0x16), 23 (0x17), 24 (0x18)... 我 在 块头 
找到 这 些 数字 并 且 用 红线 标注 出 来 了 。 错 误 码 的 间隔 是 6 个 字 节 。 这 意味 着 可 能 有 6 
个 字 节 分 配给 每 条 错误 信息 。 


第 一 个 16 位 值 (0XA 或 者 10) 表 示 每 个 块 的 消息 数量 : 我 通过 分 析 其 他 块 证 实 了 这 一 
点 ， 的 确 是 这 样 : 错误 信息 大 小 不 定 ， 有 的 长 有 的 短 。 但 是 块 大 小 总 是 固定 的 ， 所 
以 你 永远 也 不 知道 每 个 块 可 以 pack 多 少 条 文本 信息 。 


我 注意 到 ， 既 然 这 些 c 字 符 串 不 以 null 结 尾 ， 那 么 他 们 的 大 小 一 定 在 某 处 被 加 密 了 。 

第 一 个 字符 串 "normal, successful completion" 的 大 小 是 29(0x1D) 字 节 。 第 二 个 字符 
¥ "unique constraint (%s.%s) violated" 的 大 小 是 34(0x22) 字 节 。 在 块 里 面 找 不 到 这 
些 值 (0x1D 和 0x22)。 


还 有 一 点 ，Oracle RDBMS 需 要 知道 需要 加 载 的 字符 串 在 块 中 的 位 置 ， 对 么 ?第 一 
个 字符 串 "normal, successful completion" 从 地 址 0x14444( 如 果 我 们 从 文件 开始 处 计 
数 的 话 ) 或 者 0x44( 从 块 开 始 处 计数 ) 开 始 。 第 二 个 字符 囊 "Unique constraint (96s.96s) 
violated" 从 0x1461( 从 文件 开始 处 计 草 ) 或 者 0x61( 从 块 开始 处 计算 ) 开 始 。 这 些 数字 
(0x44 和 0x61) 看 上 去 很 熟悉 ! 我 们 能 在 块 的 开始 处 找到 他 们 。 


因此 ， 每 个 6 字 节 块 是 : 


e 16 比 特 错误 码 
。 16 比 特 0( 或 者 附加 标志 ) 
o 16 比 特 当 前 块 文本 字符 串 起 始 位 置 


可 以 通过 快速 核对 其 他 值 证 明 我 是 对 的 。 然 后 这 里 还 有 最 后 一 个 6 字 节 块 ， 错 误 码 

为 0， 从 最 后 一 条 错误 信息 的 最 后 一 个 字符 后 开始 。 也 许 这 就 是 确定 文本 信息 长 度 

的 方法 ?我 们 刚刚 枚 举 了 6 字 节 块 来 寻找 我 们 需要 的 错误 码 ， 然 后 我 们 找到 了 文本 字 
符 串 的 位 置 ， 接 着 我 们 通过 查看 下 一 个 6 字 节 块 获取 文本 字符 串 的 位 置 。 这 样 我 们 

就 找到 了 字符 串 的 边界 。 这 种 方法 通过 不 保存 文本 字符 串 的 大 小 节省 了 一 些 空间 。 

我 不 敢 说 它 特 别 省 ， 但 是 这 是 一 个 聪明 的 技巧 。 


我 们 再 回 到 .MSB 文 件 的 头 部 : 
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Imper 


(20000000 : 01-13 9- 00-00 
09000010: ) 00 00 00-00 00 (X -00 00 00 00-00 
00000020: i 80-08 00 - 900-00 
00000030: 00 00 00 00-02 00 00 00- 9 00 00-01 
00000040 : ( 00-84 9 : ) 0e0-9c 
00000050: ) 00-14 4D € - 80-13 
09000060 : ) 00 00 00.00 @ 0 ) 0 00 00-00 
00000070: 00-88 - 0 00-00 
00000080: 00 00 00 00.00 00 00 ) í 12-01 
00000090: i 80 -08 - 00-00 
00000040 : )0 00 00 00-00 (X ).0 0 00 00-00 
00000080: 00-00 = 00-15 
000000C0: 0 00 00-00 8 8- 0 00-00 
60000000: 8 00-00 00 00 : X ) 00-00 
89666608E6 : ) 00 00 00-00 00 € - X 00-08 
eoeooore: ( 00-01 08 6 ) ( 00-01 
00000190: ox 00-00 08 9¢ - 00-090 
00000110: 00 00 00 00-00 00 00 -00 00 00 00-00 
00000120: 00-08 = 00-08 
00000130: 00 00 00 00-00 08 € 9.0 ) 90-00 
00000140: 00-00 D : t 00-00 
00000150: 0 00 00-00 00 9 )-00 00 00 00-00 
00000160: í 00-00 - 00-08 
00000170: > 00 00 00-00 00 (X : © 00 00-00 
00000180: 9 00 00 00-00 8 - 8 00 00-00 
00000190: ) 00-00 e - 00-08 
00000140: 8 0 00 00-00 00 -0 0 90-00 
00000180: ; 00-00 - 00-08 





可 以 迅速 找到 文件 中 记录 块 数量 的 值 (用 红线 标注 出 来 了 )， 然 后 检查 了 其 他 .MSB 文 
件 ， 结 果 发 现 都 是 这 样 的 。 这 里 还 有 很 多 其 他 值 ， 但 我 没有 查看 他 们 ， 因 为 我 的 工 
VEL ee L)。 如 果 我 要 写 一 个 .MSB 文 件 packer， 那 么 我 可 能 需 
要 理解 其 他 值 的 含义 。 


头 的 后 面 接着 一 个 可 能 包含 16 比 特 值 的 表 : 


Haewc oraus.msb 


00000810: £3 3 35}32 35/39 35}4 é y4ua$5 ,52595A5G5 
00000820: 6 3 51.95 A 35 NSVS]SASKSNSXS]5 
009008 30: 3 35f04 36/0F 36 6|24 36 f5$545¢5060606$6 
0000084 C 36 6194 36 36/6 36/C6 3 , 6R6[ 60606] 6 616 
028000850: I : : F5 36 6) 04 $6 [LETS 130p 
00000860: ƏC 37|13 3 3 3 37|31 37139 3 37 878787!7)71797F7 
00000870: E 4 N7U7^7h7n7u7)717 
00000880: 3 : 67074 72747574747 
008003890: 8 3 3 3 p7u7E7.7E8s8z8w8 
000008A0: 
eeoeo8Ro : 
eeeeo8ce: 
08000800 : 


OQORDBED: B6 3 3818 E 3A; a 
eeoeo8re: 3c] 6E 3c]77 3 3c[96 3c|co 3 X^ e«ncwficti Lc H 
00000900 : 3 3048 6 3E 109 TY<S=-H>P>U>N>3> > 
00000910: 3E| C4 3 3 3 3E JEA 3ELFS 3 3E |b45)5obe 
00000920: J 3 3 3F 3 x B IM — 
00000930: 

60000940: 


00000950: @ 
00000968 : ) 8 A 4E 4 41 -GOABAGAGADANAWA 
00000970: SF 56 : 80 36 3 - AFAnA( AXAHALIARA 
00000980 E 60 44 44|D3 44 3AnAyAlA;B* DyOD 
00000990: : > 4A} 4E ; AA |OUF*FBINIVI_JAI 
600009A0: 3 4 A AA AIBF 4A | 9 [»32»»9 
8868668986 : : CD 4 ( Wis: 9 4A ara PIER 





其 大 小 可 以 直观 的 划 出 来 (我 用 红线 画 出 )。 在 dump 这 些 值 的 过 程 中 ， 我 发 现 每 个 16 
比特 的 值 是 每 个 块 最 后 一 个 错误 码 。 
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这 就 是 如 何 快速 找到 Oracle RDBMS 错 误 信 息 的 方法 : 


e. 加 载 那个 我 称 为 last Sn 含 每 个 块 最 后 一 个 错误 码 ) ; 

。 找 到 包含 我 们 所 需 错 误 码 的 块 ， 假 定 所 有 的 错误 码 的 增加 跨越 了 每 个 块 到 所 有 
文件 ; 

加 载 特殊 块 ; 

枚 举 6 字 节 结构 体 直到 找到 目标 错误 码 ; 

从 下 一 个 6 字 节 块 获取 最 后 一 个 字符 的 位 置 ; 

加 载 这 个 范围 内 错误 信息 所 有 的 字符 。 


这 是 我 编写 的 unpack.MSB 文 件 的 c 程 序 : beginners.re 
这 是 我 用 作 实例 的 两 个 文件 (Oracle RDBMS 11.1.0.6):beginners.re,beginners.re 


87.1 总 结 


这 种 方法 对 于 许多 现代 计算 机 来 说 也 许 太 老 了 ， 假 如 这 个 文件 格式 是 80 年 代 中 期 某 
DRA AGIRA E 间 节 省 意识 的 硬件 开发 者 设计 的 。 尽 管 如 此 ， 这 仍 是 一 个 有 趣 又 
简单 的 任务 ， 因 为 不 需要 分 析 Oracle RDBMS 的 代码 就 能 理解 特殊 文件 的 格式 。 
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一 些 GCC 库 函数 
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一 些 MIPS 库 函数 
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